ChatGPT pour la recherche académique

Introduction

Le 30 novembre 2022, OpenAI lance ChatGPT. En seulement 5 jours, la plateforme atteint le million d’utilisateurs[1]. Cette intelligence artificielle a, en seulement quelques mois, bouleversé notre rapport à l’information et à la connaissance, créant pour beaucoup de professionnels de l’éducation des craintes sur l’avenir de leur discipline.

Je ne suis ni un professionnel de l’éducation, ni un expert de l’intelligence artificielle. Je suis un étudiant en Services et systèmes numériques, un passionné d’informatique et un paresseux aguerri. En décembre de l’année passée, je commençais à écrire ma thèse de Bachelor, sur laquelle je travaillais depuis déjà un certain temps. Ma curiosité, comme pour beaucoup d’autres, m’a poussé à explorer ChatGPT.

« I choose a lazy person to do a hard job. Because a lazy person will find an easy way to do it. »  – Bill Gates

Je voulais tester ses capacités à traiter des sujets complexes, mais pour pouvoir correctement évaluer la qualité des réponses, il me fallait trouver un sujet que je maîtrise. 90% de mes pensées étant consacré à ma thèse, il m’a paru évident de le questionner sur ce sujet. Je me suis rendu compte du potentiel énorme de cet outil lorsque, en quelques interactions, l’IA est arrivée aux mêmes conclusions que moi après environ 10 mois de travail…

Après avoir remis en question mes trois dernières années de formations, j’ai pris du recul et compris que ces résultats n’étaient pas le produit d’une réflexion de la part de ChatGPT mais d’une agrégation très bien formulée de recherches menées par de brillants humains.

Après quelques heures d’utilisation, j’étais convaincu. J’allais utiliser ChatGPT pour écrire ma thèse. Laissez-moi maintenant vous expliquer pourquoi ce billet ne s’intitule pas “Comment j’ai utilisé une intelligence artificielle pour écrire mon travail de Bachelor à ma place”.

Définir un cadre et une méthodologie

ChatGPT n’ayant pas encore fêté ses 1 mois d’existence, il n’existait pas encore de cas concret de son utilisation dans le cadre de la recherche académique et donc pas de directives précises à suivre. Il était donc nécessaire, afin de légitimer mon travail, de définir un cadre et une méthodologie clairs, afin d’utiliser l’outil de manière responsable et éthique. Sous la supervision de Laurent Moccozet, j’ai défini quatre règles fondamentales à respecter:

I. Comprendre l’outil

ChatGPT est un outil performant, mais peut produire des informations erronées ou de mauvaises qualités, il est donc important de comprendre ses limites et son fonctionnement, afin de réduire ces risques. En se basant sur le nom du service, nous pouvons définir 2 méthodes, qui permettent d’améliorer la qualité et la pertinence des réponses, celles-ci sont les suivantes:

Chat : L’une des grandes forces de cet outil est sa capacité à adapter ses réponses, également appelées « prompts », en fonction des retours de l’utilisateur. Il est crucial d’utiliser cette fonctionnalité pour orienter l’IA vers la réponse la plus pertinente. Cette fonctionnalité a même entraîné l’émergence d’un nouveau domaine de recherche, appelé le « prompt engineering ». C’est-à-dire étudier la façon dont l’utilisateur interagit avec le programme et trouver les formulations les plus à même de produire des réponses pertinentes. Par exemple, lorsqu’on utilise une calculatrice, il est plus efficace d’écrire 3³ plutôt que 3×3×3 .

GPT (Generative Pre-trained Transformer) : GPT-3 et 4 sont ce qu’on appelle des LLM ou large language model. En d’autres termes, ce sont des systèmes capables de générer du texte sur une vaste quantité de sujets. Afin d’optimiser ses réponses, il est souhaitable de poser un cadre, en définissant le niveau de précision de ses réponses, ainsi que le contexte d’utilisation, par exemple: « Tu es un étudiant en Bachelor. Tu écris une thèse sur … ». Ce genre de méthodes rentre dans le domaine du prompt engineering et vaut la peine d’être étudié plus en détail afin de vraiment s’approprier l’outil.

II. Connaissances préliminaires

Pour assurer une utilisation efficace des capacités conversationnelles de ChatGPT, l’utilisateur doit posséder des connaissances préalables sur le sujet qu’il interroge, afin d’être en mesure de vérifier et de comprendre les informations données par l’IA.

Ce prérequis est essentiel pour assurer une utilisation optimale de ce service, en tant qu’outil de recherche.

III. Relecture et recherche additionnelles

Chaque réponse fournie par ChatGPT doit être examinée et soumise à une recherche supplémentaire pour vérifier son exactitude, sa pertinence et la source des informations présentées.

ChatGPT ne peut pas être référencé comme source de l’information qu’il fournit, il est donc essentiel de mener des recherches additionnelles, dans le but de soutenir ses affirmations avec des sources fiables.

Il est important de préciser que ChatGPT, contrairement à Bing ou Google, n’est pas un moteur de recherche. Bien qu’il soit capable de générer des informations sur une variété de sujets, il ne vérifie pas leurs exactitudes et véracité car il n’a pas la capacité de précisément déterminer l’origine des informations utilisées pour produire ses réponses. Il reste néanmoins un bon complément aux moteurs de recherche pour donner une direction et/ou afin d’expliquer des concepts résultants de recherches classiques.

Ce processus peut être facilité par l’utilisation de Bing, qui a récemment intégré GPT-4 à son moteur de recherche et qui inclut directement dans ses réponses les sources utilisées. La vérification de la fiabilité de ces références, ainsi que la recherche de sources supplémentaires restent néanmoins nécessaire.

IV. Documentation de l’utilisation

Bien que les réponses de ChatGPT ne puissent pas être directement utilisées comme références, il est important de documenter toutes les discussions pertinentes au travail qu’il a aidé à écrire. Cela permet de légitimer le travail de l’auteur et de prouver l’authenticité du résultat final.

Cette étape est particulièrement importante, car elle permet de soutenir l’utilisation éthique de l’IA pour la recherche académique, mais également de créer un précédent dans un contexte où il s’agit encore d’une technologie émergente et controversée.

Applications concrètes

La versatilité des LLM et la vitesse phénoménale de l’innovation dans le domaine permettent d’innombrables cas d’utilisation. J’ai, pour ma part, identifié 4 applications qui ont servit à la rédaction de mon travail de Bachelor, et pour lesquelles j’ai appliqué la méthodologie décrite ci-dessus.

I. Collecte d’informations

J’ai utilisé ChatGPT pour trouver et comprendre des informations sur des articles, des algorithmes, des concepts mathématiques et d’autres sujets plus ou moins complexes. L’avantage de combiner cet outil avec des moteurs de recherches classiques est qu’il permet d’obtenir des informations très précises, basées sur différentes sources agrégées en réponses digestes et compréhensibles pouvant ensuite être développées plus profondément grâce à la fonctionnalité de chat.

Pour assurer l’exactitude des informations collectées, j’ai utilisé des sources alternatives de vérification Si aucune source fiable n’a pu être identifiée, les informations n’ont pas été utilisées.

II. Description des algorithmes

J’ai fourni à ChatGPT des extraits de mon code, dûment annoté, afin qu’il me génère des descriptions des algorithmes utilisés. Les réponses produites, bien que partiellement correctes, m’ont permis de gagner du temps sur la rédaction ainsi qu’à mettre des mots sur des concepts complexes qui ne sont pas toujours évidents à traduire en langage naturel.

III. Amélioration de la qualité d’écriture

L’utilisation régulière de ce nouvel outil a impacté ma façon de rédiger. Là où auparavant je prenais soin de bien formuler chaque phrase les unes après les autres au fur et à mesure que j’écrivais, avec ChatGPT j’ai pu me concentrer sur le contenu et lui déléguer (partiellement) la forme. J’ai rapidement pris l’habitude de rédiger mes idées directement dans le chat sous forme de note afin qu’il me génère des phrases cohérentes et bien écrites.

IV. Utilisation de ChatGPT comme point de départ

Je me suis ensuite servi des réponses de ChatGPT comme fondation pour ma thèse en apportant les modifications nécessaires et en les ordonnant de sorte à former un tout qui soit cohérent et fidèle à mes idées.

Dans certains cas, les phrases générées par ChatGPT étaient suffisamment bonnes pour être utilisées (presque) telles quelles, mais dans la grande majorité des cas, la plupart du contenu a été modifié pour s’adapter à la structure globale du document ainsi qu’à mon propre style d’écriture. Je pense qu’il est important de ne pas trop se reposer sur les formulations produites par le LLM afin d’éviter que la forme rédactionnelle ne devienne trop impersonnelle.

Comme je l’ai précisé plus haut, la conversation utilisée pour générer ce texte a été mise à disposition dans les annexes de mon travail afin qu’elle puisse servir d’exemple de comment utiliser l’IA efficacement pour la rédaction.

“Du coup c’est le robot qui a fait le travail à ta place ?”

C’est la question que tout le monde se pose, et c’est légitime. ChatGPT est un outil incroyable et bien qu’il m’ait aidé à améliorer considérablement ma productivité, il n’a pas inventé les algorithmes présentés dans ma thèse.

Comme on ne remet pas en question le travail d’un mathématicien qui utiliserait une calculatrice, l’utilisation de ChatGPT ne devrait pas non plus remettre en question mon travail. Il est vrai que certains pourraient utiliser cet outil sans documentation ou de manière inappropriée pour accomplir leur travail à leur place. Mais le fait est que les IA existent, continueront d’exister et de s’améliorer. Aujourd’hui, ChatGPT offre un avantage concurrentiel et il serait contre-productif de l’interdire. Au contraire, nous avons l’opportunité de l’intégrer dans le système éducatif, d’offrir aux étudiants un tuteur capable de s’adapter à leur besoin, disponible à tout moment pour répondre à leurs questions et sans crainte d’être jugé.

Je suis profondément convaincu qu’un tel outil, correctement adapté, a le potentiel d’améliorer l’apprentissage des étudiants à chaque étape du système scolaire. Sal Khan, le fondateur de la Khan Academy, a déjà intégré un tel outil à sa plateforme d’apprentissage en ligne et les résultats sont encourageants.

[jwplayer mediaid= »13985″]

Ce nouvel outil et les intelligences artificielles de manière générale ne sont cependant pas sans risques. Au-delà des inquiétudes autour de l’insurrection des machines, les capacités génératives des IA modernes posent de sérieux risques autour de la falsification des informations, et de l’incapacité de ces machines à évaluer les risques liés aux réponses produites. Il est crucial de continuer à améliorer ces systèmes plutôt que d’essayer de les interdire, afin de minimiser les risques et de garder un certain contrôle quant à leurs utilisations.

Le changement est inévitable, autant en faire partie.

[1] Buchholz, K. (2023) ‘ChatGPT Sprints to One Million Users’, Statista, 24 janvier. Disponible à: https://www.statista.com/chart/29174/time-to-one-million-users/ (consulté le 24 mars 2023).