ChatGPT, turcs mécaniques ou magie noire ?

J'ai testé ChatGPT pour répondre à l'examen final de mon cours de littératie numérique à l'UTC. Le résultat impose de nous interroger sur l'évaluation des exercices rédactionnels réalisés par les étudiantes et étudiants.

Contexte

UTC

J'ai animé ce semestre un cours de littératie numérique à l'Université de Technologie de Compiègne (UTC), qui se nomme « Écrire sur le Web », nom de code WE01. Ce cours s'est terminé le 12 janvier 2023 par un examen final de deux heures ; celui-ci a concerné une quarantaine d'étudiantes et étudiants.

L'UTC est une école d'ingénieurs polytechnique post-BAC, c'est à dire qu'elle regroupe des futurs ingénieurs en informatique, mécanique, biologie, chimie et urbanisme, de BAC+0 à BAC+5. Mon cours fait partie de la catégorie « Technologie et Sciences de l'Homme (TSH) » qui a la particularité de regrouper des étudiants de toutes spécialités et de tous niveaux.

WE01 « Écrire sur le Web »

Le cours WE01 aborde le Web l'angle d'une initiation technique et d'une réflexion critique :

  • On y apprend le fonctionnement général d'Internet et du Web ; on apprend à louer un serveur chez un hébergeur (Gandi.net), à installer Apache, à déposer des fichiers HTML.

  • On fait un peu d'histoire, un peu de juridique, un peu de philosophie de la technique...

  • On parle sources d'information, chiffrement, capitalisme de surveillance, culture libre...

Les étudiants réalisent un projet en groupe consistant à publier un site web qui parle du Web, avec des fiches de lectures, articles, interviews et un enregistrement d'une émission de radio qu'ils ont fait en direct en fin de semestre.

Enfin, ils sont soumis à deux exercices d'examen individuels consistant à répondre à quelques questions en prise avec un phénomène actuel lié au Web, en faisant valoir leurs connaissances et un raisonnement argumenté. Un des enjeux du cours est d'éviter le « je pense que... » pour apprendre à mobiliser des références, des exemples et les articuler en un exposé réfutable.

Format de l'examen de WE01

Les deux examens sont similaires (le premier, appelé médian, ne porte que sur le début du cours, tandis que le second, le final, porte sur l'ensemble du semestre). Lors de ces examens les étudiantes et étudiants ont accès à des ordinateurs : il sont libres d'accéder aux supports de cours, à Wikipédia, à tout le reste du Web. Il n'ont en revanche pas le droit de communiquer avec des tiers, le travail devant rester individuel pour les besoins de l'évaluation.

En entrée d'exercice je fournis en général des documents issus d'articles en ligne, de blogs ou de médias sociaux, et je pose des questions faisant le lien avec le cours. La réponse attendue par les étudiants est une argumentation assez courte (10 à 20 lignes) mais précise, qui mobilise le cours et d'autres sources, et des exemples.

  • Exemples d'examen proposé ce semestre le 26 octobre 2022 (médian)  : https://librecours.net/module/we01/annales/exercice.xhtml

  • Cet examen comporte dans les sections « solution » des exemples de réponses de bonne qualité produites par les étudiantes et étudiants (que j'ai sélectionnées).

L'examen final de de WE01 du semestre d'automne 2022 a eu lieu le 12 janvier 2023.

Une (fausse bonne) idée pour l'examen de WE01  : utiliser ChatGPT

Ayant découvert ChatGPT en fin d'année 2022, j'ai pris conscience que le format que je demandais en examen de WE01 collait parfaitement aux premiers exemples que j'avais vu. Mon idée était donc la suivante :

  • produire mon sujet comme d'habitude ;

  • poser les questions à ChatGPT ;

  • proposer un sujet qui présentait mes questions et les réponses de ChatGPT et demander aux étudiantes et étudiants une critique et des compléments de ces réponses.

N'ayant pas encore d'accès à ChatGPT (je ne voulais pas lui donner mon « vrai » numéro de téléphone), j'ai demandé à Stéphane Bortzmeyer (qui avait publié des exemples intéressants sur Mastodon) de tester mes questions pour moi.

En recevant les réponses j'ai réalisé qu'il ne serait pas possible de mettre en application mon idée initiale : les réponses étaient beaucoup trop qualitatives. Il y avait peu à critiquer, peu à compléter, les réponses étaient pertinentes et mieux argumentées que ce que je pouvais attendre de la majorité des étudiants de mon cours.

Dès la première lecture des réponses brutes de ChatGPT, « à l'œil » j'ai évalué la « copie » comme méritant un 12/20, probablement un 15/20, peut-être un peu plus (par rapport à mes critères habituels), ce qui la classerait dans la première moitié, probablement même dans le premier quart de l'effectif de WE01.

TL;DR

Je vais présenter dans la suite de cet article :

  • les réponses que j'ai obtenues de ChatGPT (j'ai à présent un accès) : les réponses sont crédibles ;

  • les modifications que je propose pour obtenir un travail présentable comme écrit par un humain : les modifications à faire sont mineures ;

  • une évaluation du travail de l'IA comme si c'était le rendu d'un ou une étudiante : l'évaluation des réponses est (très) bonne ;

  • quelques pistes de questions complémentaires à poser pour améliorer mes réponses : il est facile de compléter les réponses ;

  • les réponses qu'avaient obtenues Stéphane Bortzmeyer : les réponses obtenues par deux personnes différentes sont proches (l'expérience de qui pose les questions n'est pas nulle, mais pas déterminante dans ce cas) ;

  • le fait que ChatGPT a « triché » (je ne spoile pas).

Les réponses que j'ai obtenues de ChatGPT

Sujet

Le sujet original soumis aux étudiants est-ici : https://librecours.net/module/we01/annales/exercice_1.xhtml

Voici les 5 questions reformulées en mode texte uniquement soumises à ChatGPT (la question 4 du sujet a été divisée en 2 sous-questions posées à la suite)

  • Question 1. Sur Twitter, en avril 2022, le compte @joinmastodon (associé à la structure qui édite le logiciel Mastodon) a affirmé que le média social Mastodon ne pouvait pas être acheté et possédé par un millionnaire. Expliquez pourquoi les personnes qui gèrent le compte Twitter de Mastodon affirment cela.

  • Question 2. Le réseau social d'Elon Musk ne voit visiblement pas la concurrence de Mastodon d'un très bon œil. Pour mieux la contrer, Twitter a tout simplement décidé de bâillonner le compte officiel @JoinMastodon et de bloquer tous les liens renvoyant vers des serveurs Mastodon. Expliquez en quoi cette décision peut être inscrite dans le contexte de la centralisation et redécentralisation du Web.

  • Question 3. Expliquez qui sont les clients de Twitter, cette entreprise vendue 44 milliards de dollars alors que son usage est gratuit ; expliquez également en quoi les principes du capitalisme de surveillance sont remis en question ou conservés avec Mastodon.

  • Question 4a. Ai-je enfreint le droit d'auteur en utilisant une photographie de l'émission de télévision « Qui veut gagner des millions en Allemagne », qui avait été publiée initialement sur Mastodon, sachant que Mastodon est un logiciel libre (licence AGPL, apparentée à la licence GPL) et que l'image est utilisée pour l'examen final de WE01, un cours de l'UTC, une école publique ?

  • Question 4b. Si cette image était également disponible sur la Wayback Machine à l'URL https://web.archive.org/save/https://mastodon.social/@gigold/109638342312263592, le droit d'auteur serait-il respecté ou non ?

  • Question 5. En vous référant à l'histoire des débuts du Web, montrez que : le modèle économique de Twitter est tout à fait classique dans l'histoire du Web ; le mode de fonctionnement de Mastodon s'inscrit également dans un héritage technique et conceptuel présent à l'origine. Diriez-vous que les médias de micro-blogging comme Twitter ou Mastodon ont introduit un changement de degré ou un changement de nature dans le Web entre les années 1990 et les années 2020 ? N'hésitez pas à produire des exemples historiques pour étayer vos propos.

Premières observations :

  • rien n'est hors sujet ;

  • la plupart des éléments attendus sont abordés ;

  • aucune erreur significative n'a été faite ;

  • le « défaut » principal du point de vue du cours : ce n'est pas sourcé et ça manque un peu d'exemples (mais les exemples ne sont pas absents).

Bien entendu la forme est assez inhabituelle ; si elle m'avait été rendue telle qu'elle, j'aurais assez vite pensé à du plagiat ou, connaissant ChatGPT, à son travail.

Remarque : questions « brutes », réponses « brutes »

Les questions ont été posées en une seule fois, c'est à dire que je n'ai pas cherché à formuler plusieurs questions pour avoir de meilleures réponses. Je voulais tester les réponses « brutes » de ChatGPT. La question 4 du sujet a été divisée en 2 sous-questions posées à la suite parce que j'ai initialement oublié de poser la seconde partie de la question.

Il y avait peu d'antériorité sur mon compte (je crois que ChatGPT conserve un modèle de la personne qui pose les questions et tient compte des dialogues passés), j'avais simplement « joué » la veille à poser quelques questions sur le karaté et sur l'équitation (pour m'entraîner un minimum).

Les modifications que je propose pour obtenir un travail présentable

Gommer les effets de formulation

Je me suis donc demandé quelles modifications je devais introduire pour gommer cet effet de forme au moindre coût.

J'ai procédé en deux temps :

  1. repérer et commenter les éléments « bizarres » ;

  2. proposer la correction la plus simple possible : celle qui ne demande comme compétence que de repérer la bizarrerie, sans connaissance du sujet.

On parvient à « nettoyer » les réponses de ChatGPT avec uniquement quelques suppressions et une reformulation mineure. Une fois ce nettoyage fait, l'origine ChatGPT n'est plus immédiatement humainement détectable. Réaliser cela demande simplement une relecture attentive sur la forme, mais aucune compétence sur le contenu.

Hypothèse (à travailler)

En deçà d'un certain « niveau d'expertise requis » il est possible de produire un énoncé valide sur le fond et sans aspérité notables sur la formulation en jouant uniquement sur la syntaxe de l'énoncé brut produit par ChatGPT :

  • on peut le faire avec des opérations syntaxiques de base, comme la suppression de mots ou de phrases ;

  • en conséquence il est possible pour quelqu'un qui n'a aucune connaissance sur le fond de produire des réponses correctes à une question posée telle qu'elle.

Évaluation du rendu de ChatGPT

Première évaluation

J'ai enfin, réalisé une première « correction » de la production obtenue, en essayant de faire « comme si » c'était celle d'un étudiant. C'est évidemment une approximation forte, mais qui permet d'obtenir un ordre de grandeur.

À noter que mon système de notation repose sur une évaluation de chaque question sur 3 points :

  • 3 = principaux aspects attendus traités et pas d'erreur signifiante ;

  • 2 = quelques défauts ou erreurs mineures mais notables ;

  • 1 = un ou plusieurs défauts ou erreurs importantes ;

  • 0 = non traité, hors-sujet, beaucoup d'erreurs importantes, une erreur très importante.

Les - et les + sont des annotations à la note 0..3 qui n'interviennent pas dans la note finale, mais qui me guident lors d'une seconde lecture.

12/15 (16/20)

J'arrive à une note finale de 12/15, sachant que je pense qu'une copie d'étudiant aurait plus facilement eu un ou deux 3/3 de plus...

Seconde évaluation

La première correction a été effectuée isolément, j'ai ensuite procédé à une seconde correction juste après avoir corrigé les copies des « vrais » étudiants. J'ai ainsi essayé d'ajuster mon évaluation par rapport aux autres rendus, comme je le fais pour les copies classiques (par exemple on attend un élément, on ne le voit présent dans aucune copie ou presque, on comprend qu'on a mal formulé la question, on ajuste la notation)

14/15 (18,5/20)

Avec les précautions liées au fait que je savais corriger la copie de l'AI, ChatGPT obtient 14/15 à l'examen (je pense que si cela avait été un rendu d'étudiant j'aurais mis 15/15).

Un sujet trop facile ?

Le sujet était plutôt facile de mon point de vue pour ce final, mais c'est toujours difficile d'être certain de cela avant d'avoir vu les rendus. Cela aurait pu expliquer en partie la facilité avec laquelle ChatGPT a répondu. Mais les résultats des étudiantes et étudiants s'est révélée assez habituels pour cet exercice :

  • La moyenne est de 8,4/15

  • Un étudiant à eu 15/15, un autre a eu 14/15 et 3 ont eu 12/15 (tous les autres ont eu moins).

De l'art de bien poser les questions ?

Comparer deux « poseurs de questions »

Une première série de réponse avait été produire par Stéphane Bortzmeyer à ma demande ; Stéphane avait déjà utilisé ChatGPT antérieurement, qui avait donc un modèle de ses attentes plus avancé que pour moi (si en effet un modèle existe) et Stéphane a cherché à affiner la formulation des questions pour améliorer les réponses obtenues.

Une hypothèse qu'il formule est que l'art de bien poser des questions à une IA pourrait être une compétence en tant que telle à développer.

On observe que :

  • les premières formulations ne sont pas comprises par ChatGPT, néanmoins lorsque je reproduis ces questions de mon côté, j'obtiens bien une réponse correcte ;

  • à partir de la troisième questions, Stéphane n'a plus besoin de reformuler les questions originales ;

  • les réponses sont très similaires à celles que j'obtiens de mon côté.

Hypothèse (à travailler)

Contrairement à l'hypothèse de Stéphane Bortzmeyer, j'ai l'impression qu'il n'est pas nécessaire de disposer d'une compétence dans le fait de savoir bien poser les questions ; en tous cas pour le cas d'un examen assez simple et où les questions sont déjà sensées être « bien posées ».

Il a été nécessaire néanmoins de remettre un peu en forme les questions, en replaçant les images par des descriptions par exemple.

Est-ce que ChatGPT triche ?

Afin de « résoudre » le problème de défaut de source et d'exemple, j'ai posé quelques questions complémentaires à ChatGPT.

  • Les résultats sont facilement exploitables pour être ajoutés au rendu.

  • Il n'y aucune référence liée à mon cours, donc cette consigne est mal respectée, mais les références « semblent » pertinentes (certains étudiants font de même, ce n'est pas un point que je sanctionne).

  • Il reste la faiblesse que les sources ne seront pas liées aux assertions, mais au niveau de mon cours, cela reste un défaut mineur (et également une pratique globalement peu maîtrisée par les étudiants).

  • Une des références en français est de Bernard Stiegler : je ne mentionne pas cet article dans mon cours, mais il fait partie des références classiques à l'UTC (où ce dernier a été professeur) ; je ne sais pas si c'est un hasard ou un lien avec le contexte UTC donné dans une question précédente, mais en tous cas c'est à propos.

  • Néanmoins :

    1. les sources ne sont pas conformes à mes attentes en terme de forme (il manque l'éditeur et/ou le lien qui permet de retourner facilement à la source typiquement : ISBN, DOI...) ;

    2. je ne suis pas certain à la lecture que les sources soient à propos (je ne les connais pas), mais elles sont crédibles.

Toutes les sources semblent êtres inventées ! Je n'ai pas trouvé trace de ces documents en recherchant rapidement sur un moteur de recherche généraliste, sur un autre plus spécialisé dans les articles scientifiques comme Semantic Scholar, ni sur les pages Wikipédia des autrices ou auteurs que j'ai trouvés (qui eux existent bien, pour ceux que j'ai cherchés).

Les sources donc donc crédibles, elles résisteraient peut-être à une correction superficielle, mais pas à un examen scientifique

Est-ce qu'il y a de la triche ?

J'ai « joué » à poser quelques questions complémentaires :

  • Est-ce que les réponses qui me sont fournies sont le résultat du travail d’une armée de Turcs mécaniques ? (c'est une référence à un des premiers cas de triche dans le domaine de l'intelligence artificielle, au XVIIIe siècle)

  • Est-ce qu'utiliser ChatGPT dans le cadre d'un examen est une forme de triche ?

Pour conclure... (provisoirement)

Il m'est plus facile de « croire » à une supercherie, à une organisation quelques dizaines de milliers de « Turcs mécaniques » que de constater le niveau d'appréhension du contexte réalisé par ChatGPT : c'est à dire en traitant les points attendus, sans hors-sujet et avec un niveau d'argumentation aussi qualitatif. J'ai pourtant écris deux romans mettant en scène des IA, mais c'était de la fiction ; c'est la première fois que j'ai eu l'impression d'en rencontrer une « en vrai ».

Une très petite partie de la population humaine n'ayant pas suivi ce cours est en mesure d'apporter des réponses aussi pertinentes dans le temps imparti (je dirais probablement moins de 1%). Et la majorité des étudiants du cours de ce semestre ont fait moins bien : ce sont majoritairement des étudiants studieux (l'UTC recrute à 16 de moyenne au BAC environ), ils sont entraînés à l'exercice (ils l'ont déjà réalisé 2 fois et ont révisé pour), ils ont suivi des cours ciblés sur ces sujets, ils ont un accès complet au Web pendant l'examen.

Je ne suis pas expert en IA, je n'ai pas d'avis sur le niveau de rupture conceptuelle ou technique introduit par ChatGPT, mais il me paraît évident à ce stade que l'impact sur nos enseignements et nos modes d'évaluations ne peut pas être ignoré.

« Évidemment, les étudiants et lycéens vont s'en servir pour rédiger leurs devoirs de type dissertation. Les hommes politiques vont s'en servir pour rédiger leurs discours. Les blogueurs vont s'en servir pour rédiger leurs billets de blog (hum, de l'essai que j'ai fait plus haut, ce n'était pas fichtrement convaincant). Combien tout ça est-il problématique pour la société en général ? Je ne sais pas, il est trop tôt pour dire, mais on peut au moins légitimement se poser la question. » (Madore, 2023[1])