{"id":2355,"date":"2024-10-22T13:56:32","date_gmt":"2024-10-22T11:56:32","guid":{"rendered":"https:\/\/cmi-2i2a.univ-avignon.fr\/?p=2355"},"modified":"2024-10-22T13:56:32","modified_gmt":"2024-10-22T11:56:32","slug":"automatisation-et-simplification-des-textes-scientifiques-mon-experience-au-lia","status":"publish","type":"post","link":"https:\/\/cmi-2i2a.univ-avignon.fr\/index.php\/2024\/10\/22\/automatisation-et-simplification-des-textes-scientifiques-mon-experience-au-lia\/","title":{"rendered":"Automatisation et Simplification des Textes Scientifiques : Mon Exp\u00e9rience au LIA"},"content":{"rendered":"\n<p>Dans le cadre de ma deuxi\u00e8me ann\u00e9e de licence en informatique et de Cursus Master Ing\u00e9nierie (CMI) \u00e0 l\u2019Universit\u00e9 d\u2019Avignon, j\u2019ai eu l\u2019opportunit\u00e9 de r\u00e9aliser un stage au <strong>Laboratoire Informatique d\u2019Avignon (LIA)<\/strong> sous la tutelle de <strong>M. St\u00e9phane Huet<\/strong>. Ce stage m\u2019a permis de m\u2019immerger dans le monde de la recherche, un domaine qui m\u2019int\u00e9resse particuli\u00e8rement, et de d\u00e9couvrir le projet <strong>SimpleText<\/strong>, une initiative europ\u00e9enne d\u00e9di\u00e9e \u00e0 la simplification automatique de textes scientifiques.<\/p>\n\n\n\n<p><strong>Contexte du stage<\/strong><\/p>\n\n\n\n<p>Ayant un fort int\u00e9r\u00eat pour le traitement automatique du langage, j\u2019\u00e9tais tr\u00e8s motiv\u00e9 \u00e0 l\u2019id\u00e9e de rejoindre un laboratoire de recherche, malgr\u00e9 quelques appr\u00e9hensions li\u00e9es \u00e0 mon niveau d\u2019\u00e9tude en d\u00e9but de stage. Bien que le LIA prenne g\u00e9n\u00e9ralement des \u00e9tudiants de troisi\u00e8me ann\u00e9e, j\u2019ai pu trouver ma place dans l\u2019\u00e9quipe et me lancer dans ce projet innovant. SimpleText vise \u00e0 rendre les articles scientifiques plus accessibles au grand public, son but est de r\u00e9sum\u00e9 de mani\u00e8re tr\u00e8s simple des articles scientifique de haut niveau. Mon stage, bien que court, s\u2019inscrivait dans la <strong>t\u00e2che 1<\/strong> de ce projet, \u00e0 savoir la <strong>s\u00e9lection des passages pertinents<\/strong> \u00e0 inclure dans les r\u00e9sum\u00e9s simplifi\u00e9s.<\/p>\n\n\n\n<p><strong>Le Projet SimpleText : Une ambition europ\u00e9enne<\/strong><\/p>\n\n\n\n<p>Le projet <strong>SimpleText<\/strong> est un vaste projet qui regroupe plusieurs pays europ\u00e9ens, dont la France, l\u2019Italie, et les Pays-Bas. Bien que la t\u00e2che principale \u00e9tait de s\u00e9lectionner les passages, une partie de mon travail impliquait aussi une <strong>\u00e9valuation manuelle<\/strong> de la complexit\u00e9 des textes, avec l\u2019aide, entre autre, d\u2019un algorithme math\u00e9matique connu sous le nom de <strong>Flesh-Kincaid Grade Level (FKGL)<\/strong>.<\/p>\n\n\n\n<p><strong>Complexit\u00e9 de lecture et \u00e9valuation manuelle<\/strong><\/p>\n\n\n\n<p>L\u2019\u00e9valuation des passages reposait principalement sur l\u2019algorithme FKGL, qui calcule la complexit\u00e9 de lecture d\u2019un texte. Cependant, cet algorithme ne prend pas en compte la difficult\u00e9 de compr\u00e9hension des termes techniques. J\u2019ai donc \u00e9t\u00e9 amen\u00e9 \u00e0 effectuer une <strong>\u00e9valuation manuelle<\/strong> en attribuant une note de 0 \u00e0 2 \u00e0 chaque passage, en fonction de sa complexit\u00e9. Par la suite, j\u2019ai compar\u00e9 mes r\u00e9sultats avec ceux des \u00e9tudiants d\u2019autres universit\u00e9s europ\u00e9ennes, afin de mesurer les \u00e9carts et d\u2019ajuster les scores moyens par \u00e9tablissement.<\/p>\n\n\n\n<p><strong>Les d\u00e9fis du traitement automatique<\/strong><\/p>\n\n\n\n<p>Un des d\u00e9fis majeurs de ce stage r\u00e9sidait dans les <strong>limites de l\u2019algorithme FKGL<\/strong>. En effet, FKGL \u00e9value principalement la lisibilit\u00e9 du texte, sans tenir compte de la technicit\u00e9 des termes employ\u00e9s. Cela cr\u00e9e des incoh\u00e9rences, par exemple entre des termes simples et des termes tr\u00e8s techniques qui comptent le m\u00eame nombre de syllabes. Nous avons standardis\u00e9 la <strong>tokenisation<\/strong> \u00e0 l\u2019aide de la librairie <strong>NLTK<\/strong>, coupl\u00e9e au dictionnaire de syllabisation <strong>Cmudict<\/strong>, ce qui nous a permis de comparer les textes de mani\u00e8re plus coh\u00e9rente.<\/p>\n\n\n\n<p><strong>Conclusion : une exp\u00e9rience enrichissante<\/strong><\/p>\n\n\n\n<p>Ce stage m\u2019a beaucoup appris, non seulement sur le plan technique, mais aussi sur la fa\u00e7on de travailler dans un laboratoire de recherche. Bien que la dur\u00e9e limit\u00e9e du stage ait restreint l\u2019ampleur des missions que j\u2019aurais pu accomplir, l\u2019exp\u00e9rience m\u2019a permis de contribuer \u00e0 un projet europ\u00e9en d\u2019envergure tout en apprenant les m\u00e9thodologies de simplification de texte. J\u2019esp\u00e8re pouvoir poursuivre ce type de projets dans mes futures exp\u00e9riences acad\u00e9miques et professionnelles.<\/p>\n\n\n\n<p><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Dans le cadre de ma deuxi\u00e8me ann\u00e9e de licence en informatique et de Cursus Master Ing\u00e9nierie (CMI) \u00e0 l\u2019Universit\u00e9 d\u2019Avignon, j\u2019ai eu l\u2019opportunit\u00e9 de r\u00e9aliser un stage au Laboratoire Informatique d\u2019Avignon (LIA) sous la tutelle de M. St\u00e9phane Huet. Ce stage m\u2019a permis de m\u2019immerger dans le monde de la recherche, un domaine qui m\u2019int\u00e9resse particuli\u00e8rement, et de d\u00e9couvrir le projet SimpleText, une initiative europ\u00e9enne d\u00e9di\u00e9e \u00e0 la simplification automatique de textes scientifiques. Contexte du stage Ayant un fort int\u00e9r\u00eat&#8230;<\/p>\n<p class=\"read-more\"><a class=\"btn btn-default\" href=\"https:\/\/cmi-2i2a.univ-avignon.fr\/index.php\/2024\/10\/22\/automatisation-et-simplification-des-textes-scientifiques-mon-experience-au-lia\/\">Lire la suite<span class=\"screen-reader-text\"> Lire la suite<\/span><\/a><\/p>\n","protected":false},"author":55,"featured_media":0,"comment_status":"closed","ping_status":"","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[1],"tags":[],"coauthors":[203],"class_list":["post-2355","post","type-post","status-publish","format-standard","hentry","category-non-classe"],"_links":{"self":[{"href":"https:\/\/cmi-2i2a.univ-avignon.fr\/index.php\/wp-json\/wp\/v2\/posts\/2355","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/cmi-2i2a.univ-avignon.fr\/index.php\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/cmi-2i2a.univ-avignon.fr\/index.php\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/cmi-2i2a.univ-avignon.fr\/index.php\/wp-json\/wp\/v2\/users\/55"}],"replies":[{"embeddable":true,"href":"https:\/\/cmi-2i2a.univ-avignon.fr\/index.php\/wp-json\/wp\/v2\/comments?post=2355"}],"version-history":[{"count":1,"href":"https:\/\/cmi-2i2a.univ-avignon.fr\/index.php\/wp-json\/wp\/v2\/posts\/2355\/revisions"}],"predecessor-version":[{"id":2356,"href":"https:\/\/cmi-2i2a.univ-avignon.fr\/index.php\/wp-json\/wp\/v2\/posts\/2355\/revisions\/2356"}],"wp:attachment":[{"href":"https:\/\/cmi-2i2a.univ-avignon.fr\/index.php\/wp-json\/wp\/v2\/media?parent=2355"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/cmi-2i2a.univ-avignon.fr\/index.php\/wp-json\/wp\/v2\/categories?post=2355"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/cmi-2i2a.univ-avignon.fr\/index.php\/wp-json\/wp\/v2\/tags?post=2355"},{"taxonomy":"author","embeddable":true,"href":"https:\/\/cmi-2i2a.univ-avignon.fr\/index.php\/wp-json\/wp\/v2\/coauthors?post=2355"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}