Technologies

Dans la programmation, ChatGPT hallucine une fois sur deux

Dans près de 40% des cas, les développeurs tests de l’étude préfèrent les réponses de ChatGPT à celles de Stack Overflow. Choisissant ainsi un code erroné dans plus des trois quarts des cas. (Photo : Ilya Pavlov /Unsplash)

Pour les développeurs, ChatGPT amène d'importants gains de productivité. Sauf que ses réponses sont verbeuses et très souvent fausses. Et que les utilisateurs peinent à détecter ces incorrections.

PublicitéChatGPT, un outil idéal pour accélérer la production de code ? Voire. Une étude menée par plusieurs chercheurs de l'université de Purdue (située dans l'Indiana, aux Etats-Unis), encore en prépublication, montre que le chatbot d'OpenAI donne des réponses erronées à des questions de programmation logicielle une fois sur deux. Et ces 'hallucinations' - le terme consacré pour les réponses erronées des LLM - sont suffisamment convaincantes pour tromper un tiers des participants à l'étude.

Pour réaliser leur étude, les chercheurs de Purdue ont analysé les réponses de ChatGPT à 517 questions issues du site spécialisé dans la programmation Stack Overflow. L'exactitude, la cohérence, l'exhaustivité et la concision des suggestions produites par l'outil d'OpenAI ont ensuite été évaluées par les universitaires. Ces mêmes réponses ont également été soumises à une douzaine de volontaires pour avis, en comparaison des réponses que proposait la communauté Stack Overflow à ces mêmes questions.

Sensibiliser les équipes aux risques des LLM

« Notre analyse montre que 52% des réponses de ChatGPT sont incorrectes et 77 % sont verbeuses », tranchent les auteurs. Sauf que bon nombre de ces réponses sont suffisamment crédibles et bien articulées pour tromper le panel d'utilisateurs réuni par les chercheurs (7 diplômés en sciences, technologie, ingénierie et mathématiques, 4 étudiants non encore diplômés et un ingénieur informatique déjà en poste). Dans près de 40% des cas, ceux-ci préfèrent les réponses de ChatGPT à celles provenant de Stack Overflow. Alors que, dans 77% des cas, ces suggestions étaient tout simplement erronées ! « Notre étude met en évidence la nécessité d'un examen minutieux et d'une rectification des erreurs de ChatGPT, ainsi que d'une sensibilisation de ses utilisateurs aux risques associés aux réponses apparemment correctes fournies par le chatbot », écrivent les chercheurs de Purdue.

Pour ces derniers, les utilisateurs ne parviennent à identifier les erreurs de l'IA générative que lorsque celles-ci sont évidentes. « Lorsque l'erreur n'est pas facilement vérifiable ou qu'elle nécessite un environnement de programmation ou une documentation externe, les utilisateurs ne parviennent souvent pas à l'identifier ou sous-estiment le degré d'erreur de la réponse », notent les auteurs. Pour ces derniers, qui se basent sur les entretiens qu'ils ont menés avec les participants après leur avoir soumis les réponses de l'IA et celles de Stack Overflow, ChatGPT a tendance à rassurer ses utilisateurs avec son langage poli, ses réponses bien articulées et exhaustives. En somme, la confiance qu'affiche ChatGPT et la pertinence apparente de ses réponses (même lorsqu'elles sont incorrectes) permettent de gagner la confiance des utilisateurs.

PublicitéChatGPT rassure ses utilisateurs

Ce qui est d'ailleurs confirmé par l'étude linguistique et l'analyse de sentiments conduites par l'équipe de chercheurs de Purdue, sur 2 000 questions issues de Stack Overflow. Les réponses de ChatGPT sont plus formelles et analytiques et elles véhiculent moins de sentiments négatifs que les commentaires postés sur Stack Overflow. « À de nombreuses reprises, nous avons observé que ChatGPT insérait des mots et des phrases tels que "bien sûr, je peux vous aider", "ceci va certainement résoudre le problème", etc. », écrivent les auteurs.

L'étude en preprint, intitulée "Who Answers It Better ? An In-Depth Analysis of ChatGPT and Stack Overflow Answers to Software Engineering Questions", a été rédigée par les chercheurs Samia Kabir, David Udo-Imeh, Bonan Kou et le professeur assistant Tianyi Zhang. Elle a le mérite de mettre le doigt sur l'ampleur du problème qu'est susceptible de générer l'usage de ChatGPT en programmation. Même si ces résultats méritent d'être confirmés, notamment en raison de la faible taille de l'échantillon de participants à l'étude et de leurs profils très homogènes. Les universitaires de Purdue invitent d'ailleurs d'autres équipes de recherche à reproduire et prolonger leur étude, et mettent leurs jeux de données à disposition pour ce faire.

Article rédigé par

Reynald Fléchaux, Rédacteur en chef CIO
Suivez l'auteur sur Twitter

Partager cet article

Commentaire

Envoyer

Ecrire un commentaire...

INFORMATION

Vous devez être connecté à votre compte CIO pour poster un commentaire.

Cliquez ici pour vous connecter
Pas encore inscrit ? s'inscrire

Article rédigé par

Partager cet article

Commentaire

Abonnez-vous à la newsletter CIO