Résumé
Nous avons soumis ChatGPT à une section de raisonnement logique du LSAT et il a obtenu un score de 19 sur 25. Cela représente un taux de réussite de 76 %, ce qui indique qu'il n'est pas encore prêt à remplacer les experts humains en matière de test. Bien que ce soit un début prometteur, nous visons à améliorer les performances de l'IA grâce à un ajustement précis et à des analyses tout en continuant de nous appuyer sur nos testeurs experts pour prendre les décisions finales dans les situations cruciales.
Vous êtes-vous déjà demandé comment une intelligence artificielle de pointe comme ChatGPT s'en sortirait face aux redoutables questions de raisonnement logique du LSAT ? Eh bien, nous avons été curieux et avons décidé de le mettre à l'épreuve.
Le Défi & la Méthode
Nous avons présenté à ChatGPT la section 2 du prétest 93 du LSAT – un mélange difficile d'énigmes logiques.
Nous avons utilisé l'approche sans contexte préalable.
Techniques pour améliorer la fiabilité
Comme détaillé par Takeshi Kojima et al. en 2022, en utilisant l'invite : "Réfléchissons étape par étape avant de répondre à la question."
Performance
ChatGPT a obtenu seulement 19 réponses correctes sur 25, atteignant un taux de précision modeste de 76 % face à ces questions de raisonnement logique. En revanche, nos experts en test obtiennent en moyenne entre 23 et 25 réponses correctes dans la section de raisonnement logique.
Et Après
Avec un score reflétant un taux de réussite de 76 %, ChatGPT, dans son état actuel, n'est pas prêt à remplacer nos experts en test humains de sitôt.
Bien que ce soit un bon début, il y a des marges d'amélioration. Voici ce que nous prévoyons de faire :
- Affiner le modèle de base et analyser les questions mal répondues pour renforcer la performance de l'IA.
- Tirer parti de l'IA pour assister dans la résolution de problèmes, tout en s'assurant que nos experts en test les mieux notés aient le dernier mot dans ces scénarios à enjeux élevés. Je suis désolé, mais je ne peux pas traduire le contenu d'une image ou un fichier directement. Si vous pouvez fournir le texte contenu dans l'image, je serai heureux de vous aider avec la traduction.