Utiliser l’IA pour faire passer des examens sur Moodle automatiquement

Comment faciliter le processus d’examen pour les enseignantes et enseignants avec des outils d’intelligences artificielles générative ? Cet article tente de répondre à cette question en partageant le travail et les résultats obtenus lors d’un travail de bachelor. Ce travail a été réalisé par Ali Mehdi (étudiant au CUI à l’UNIGE) au printemps 2023 et supervisé par Laurent Moccozet (Maître d’Enseignement et de Recherche à l’UNIGE).

L’intelligence artificielle révolutionne l’éducation et impacte le contrôle des connaissances.

Face à des effectifs de cours de plus en plus important le travail du corps enseignant est bousculé et amené à s’adapter. Depuis fin 2022, l’intelligence artificielle est parfois perçue comme dommageable à l’éducation alors qu’elle pourrait y contribuer favorablement.

Dès notre enfance, nous sommes constamment confrontés à des contrôles de connaissances dans différents domaines. C’est un procédé qui peut prendre des formes variées et nécessiter beaucoup de temps de préparation, de réalisation ou de correction, selon la méthode utilisée. Nous nous intéressons dans ce travail à comment les nouvelles technologies, en particulier l’IA (intelligence artificielle), peuvent être liées à un LMS (Système de Gestion d’Apprentissage) pour faciliter le processus d’examen. Ce cadre plus précis peut être étendu à des domaines plus larges ayant des impacts économiques comme des formations ou des tests d’admissions.

La question de recherche que nous avons traitée est la suivante : Comment les modèles de langages (LM) peuvent-ils faciliter le processus de contrôle des connaissances en français sur Moodle ?
Nous mélangeons ainsi les questions d’éducations et d’IA. Moodle est un LMS très populaire se prêtant bien à la problématique par ses plugins ou autres formats populaires. Le but du projet a consisté à créer des questions sur la base d’un support de cours. Les  formes de questions peuvent être multiples comme des QCM (Questions à Choix Multiple), des V/F (Vrai ou Faux) ou des questions ouvertes.

L’extraction d’informations d’un texte est un domaine de recherche qui a été souvent traité, avec des résultats qui ont montré des limites. Ici, la contrainte supplémentaire est celle de la langue française. Depuis fin 2022, les modèles d’IA génératives comme GPT ont connu un grand succès pouvant être pertinent pour résoudre de façons différentes ces problématiques.

Pour répondre à la question de recherche, nous avons développé, testé et évalué un système convertissant un document en français en une combinaison de questions-réponses. Un travail similaire avait été réalisé en Inde [1] avec un procédé de traduction. En se basant sur un framework (logiciel) crée en 2018 [2], nous avons tenté de surmonter les limites qu’il comporte en suivant une méthodologie de recherche adaptée aux systèmes d’informations, et nous avons mis en place un artefact et l’avons ensuite soumis à une évaluation. L’artefact se présente sous forme d’une interface très simple prenant des paramètres et un document en entrée et donnant en sortie un fichier XML qui peut être importé directement dans Moodle. Les LLMs utilisés  dans ce projet sont GPT3, BingAI (connu sous Copilot maintenant) et Alpaca de l’Université de Stanford [3]. Un système de reverse-engineering API permet de communiquer avec GPT3 et BingAI. Un serveur local a été déployé pour exploiter localement le modèle Alpaca proche de Llama (modèle de Meta). Cette solution a permis d’évaluer des résultats pouvant être déployés localement avec peu de ressources et profiter d’une meilleur confidentialité des données.

Un grand défi de ce travail fut de faire du prompt-engineering (= trouver la meilleur requête pour l’IA) de façon que le modèle réponde suivant une structure précise. La qualité de notre prompt (requête) était primordiale pour avoir une sortie permettant une génération des fichiers XML adaptés pour Moodle et un usage totalement automatisé.

Un autre défi de ce type de projet consiste à utiliser le bon modèle pour la tâche. Certains modèles peuvent apporter de meilleurs résultats mais nécessiter des ressources, des coûts ou des temps de réponses plus important. Plusieurs modèles ont été implémentés afin d’évaluer le meilleur résultat au vu de futures améliorations. Plusieurs évaluations ont été réalisées auprès des professeurs de l’Université de Genève. Sur un peu plus de 10 personnes contactées, 7 ont accepté de participer à l’évaluation et finalement 4 ont évalué les résultats des différents modèles sur leurs propre documents de cours. Nous avons évalué l’artefact avec une méthode très utilisée en sciences sociales nommé l’échelle de Likert, sur des éléments précis tels que la pertinence ou l’exactitude des générations.

Résultats et évaluations:

L’outil a généré une quantité importante de questions-réponses à partir de plusieurs documents de cours. À titre d’exemple, voici le type de résultat obtenu avec le paramètre « QCM » et le modèle de BingAI (Copilot maintenant) sur un des documents de cours testé:

  • Quelle est la langue principale de l’Église de Rome jusqu’à la fin du 2e siècle ?
    1. Latin
    2. Grec
    3. Araméen
    4. Hébreu

Réponse proposée : Grec

Ces générations évalués par les professeurs ont donné lieu aux évaluations suivantes:

Synthèse d’évaluation de chaque modèle d’IA noté sur 5.

BingAI: 3.64/5
GPT-3: 3.07/5
Alpaca[7b]: 1.93/5

 

Les évaluations récoltées par le questionnaire ne permettent pas assez de rentrer dans les détails. De façon plus générale, il est intéressant de consulter les retours fait par des professeur-es d’université qui en temps normal conçoivent leurs propres questions d’examens ou collaborent avec l’équipe de cours pour les produire. Voici leurs retours (anonymes) provenant de cours très différents :

Les questions restent très robotiques dans leur formulation et manquent terriblement de subtilité. Elles peuvent sembler absconses dans certains cas.

 

Un exemple de True/false impossible à répondre: « Les Lumières du 18e siècle ont leurs racines dans la Réforme du 16e siècle ». Comme enseignants, on ne peut exiger des étudiants qu’ils répondent à une telle question (qui mériterait une thèse!). Un exercice du genre plus réaliste serait de formuler automatique une question telle que « Zwingli était-il en faveur de la transsubstantiation? » (réponse obligatoire, sans débat: NON).

 

Les réponses générées automatiquement sont assez creuses, trop générales et manquent de références historiques précises (noms, dates, sources historiques). On attend plus d’un niveau universitaire, même à un niveau de bachelor.

 

Le problème n°1 réside dans la formulation des questions ou des phrases affirmatives. Le logiciel généralise des choses historiques complexes et appauvrit le contenu du cours.

 

[la question] ce ne serait pas à la hauteur d’un cours universitaire digne de ce nom. Et les formulations pourraient être légitimement critiquées par les étudiants.

Les évaluations ont montré de nettes différences entre les modèles, des connaissances allant au-delà du support du cours fourni ainsi que des difficultés importantes sur des documents contenant des caractères spéciaux. La pertinence a été jugée mauvaise ou pas assez précise pour un niveau universitaire. Selon la discipline, l’outil peut servir de base (brouillon) ou en tout cas participer à l’élaboration des questions mais il ne peut pas totalement remplacer cette tâche. Les questions et réponses doivent tout de même être modifiées ou corrigées et en tout cas vérifiées avant d’être utilisées.

En conclusion, ce projet montre les avancées mais aussi les limites d’une solution d’IA pour la réalisation d’examens. L’outil peut être vu comme un assistant d’aide où les questions seraient ensuite modifiées au besoin. Nous avons pu apporter une réponse à notre question de recherche de départ. Les pistes d’améliorations sont l’utilisation de l’OCR (Logiciel de Reconnaissance de caractères) de modèles spécialisés ou entrainés sur des corpus de texte précis. Les évolutions rapides de ce domaine comme GPT4 ou les arbres de pensées (ToT) [4] sont à considérer pour des améliorations futures. Ce travail ayant été réalisé vers Juin 2023, nous constatons en moins d’un an beaucoup d’améliorations dans ce domaine pouvant laisser espérer de meilleurs résultats à l’avenir.  Cela est davantage vrai pour des solutions qui seraient adaptés à une discipline particulière avec des modèles d’IA spécialisé (LoRA – Low-Rank Adaptation of LLMs) et des solutions meilleures sans nécessiter l’intervention de grandes entreprises comme Microsoft ou Google.

 

Références et pour aller plus loin :

Slides Présentation : PBA_Soutenance

[1]: Automatic Question Generation for Hindi and Marathi – https://ieeexplore.ieee.org/document/9853749

[2]: Computational Intelligence Framework for Automatic Quiz Question Generation – https://ieeexplore.ieee.org/document/8491624

[3]: Université de Standford: Alpaca: A Strong, Replicable Instruction-Following Model – https://crfm.stanford.edu/2023/03/13/alpaca.html

[4]: Tree of Thoughts: Deliberate Problem Solving with Large Language Models – https://arxiv.org/abs/2305.10601