Automatisation et Simplification des Textes Scientifiques : Mon Expérience au LIA

22 octobre 2024 Arthur Buren

Dans le cadre de ma deuxième année de licence en informatique et de Cursus Master Ingénierie (CMI) à l’Université d’Avignon, j’ai eu l’opportunité de réaliser un stage au Laboratoire Informatique d’Avignon (LIA) sous la tutelle de M. Stéphane Huet. Ce stage m’a permis de m’immerger dans le monde de la recherche, un domaine qui m’intéresse particulièrement, et de découvrir le projet SimpleText, une initiative européenne dédiée à la simplification automatique de textes scientifiques.

Contexte du stage

Ayant un fort intérêt pour le traitement automatique du langage, j’étais très motivé à l’idée de rejoindre un laboratoire de recherche, malgré quelques appréhensions liées à mon niveau d’étude en début de stage. Bien que le LIA prenne généralement des étudiants de troisième année, j’ai pu trouver ma place dans l’équipe et me lancer dans ce projet innovant. SimpleText vise à rendre les articles scientifiques plus accessibles au grand public, son but est de résumé de manière très simple des articles scientifique de haut niveau. Mon stage, bien que court, s’inscrivait dans la tâche 1 de ce projet, à savoir la sélection des passages pertinents à inclure dans les résumés simplifiés.

Le Projet SimpleText : Une ambition européenne

Le projet SimpleText est un vaste projet qui regroupe plusieurs pays européens, dont la France, l’Italie, et les Pays-Bas. Bien que la tâche principale était de sélectionner les passages, une partie de mon travail impliquait aussi une évaluation manuelle de la complexité des textes, avec l’aide, entre autre, d’un algorithme mathématique connu sous le nom de Flesh-Kincaid Grade Level (FKGL).

Complexité de lecture et évaluation manuelle

L’évaluation des passages reposait principalement sur l’algorithme FKGL, qui calcule la complexité de lecture d’un texte. Cependant, cet algorithme ne prend pas en compte la difficulté de compréhension des termes techniques. J’ai donc été amené à effectuer une évaluation manuelle en attribuant une note de 0 à 2 à chaque passage, en fonction de sa complexité. Par la suite, j’ai comparé mes résultats avec ceux des étudiants d’autres universités européennes, afin de mesurer les écarts et d’ajuster les scores moyens par établissement.

Les défis du traitement automatique

Un des défis majeurs de ce stage résidait dans les limites de l’algorithme FKGL. En effet, FKGL évalue principalement la lisibilité du texte, sans tenir compte de la technicité des termes employés. Cela crée des incohérences, par exemple entre des termes simples et des termes très techniques qui comptent le même nombre de syllabes. Nous avons standardisé la tokenisation à l’aide de la librairie NLTK, couplée au dictionnaire de syllabisation Cmudict, ce qui nous a permis de comparer les textes de manière plus cohérente.

Conclusion : une expérience enrichissante

Ce stage m’a beaucoup appris, non seulement sur le plan technique, mais aussi sur la façon de travailler dans un laboratoire de recherche. Bien que la durée limitée du stage ait restreint l’ampleur des missions que j’aurais pu accomplir, l’expérience m’a permis de contribuer à un projet européen d’envergure tout en apprenant les méthodologies de simplification de texte. J’espère pouvoir poursuivre ce type de projets dans mes futures expériences académiques et professionnelles.

CMI 2I2A

Informatique & intelligence Artificielle d'Avignon

Automatisation et Simplification des Textes Scientifiques : Mon Expérience au LIA

22 octobre 2024 Arthur Buren