Sur l’application de l’Intelligence Artificielle Générative dans les différents domaines du Langage.
Depuis la récente démocratisation de l’intelligence artificielle générative, nous avons vu apparaître des modèles très performants en termes de langage. Des modèles comme ChatGPT ont de très bonnes performances en termes de compréhension et production du langage, et, plus généralement, les modèles nécessitant des promptes ont de bonnes compréhensions du langage et ce malgré une compréhension des consignes humaines plus faibles ayant conduit à l’apparition du prompt engineering. La compréhension du langage est donc devenue une clé qui a permis l’expansion et le développement des intelligence artificielles génératives (IAG). Dorénavant, les IAG sont utilisées comme outils et aides auxiliaires dans de nombreux domaines, facilitant voire améliorant les travaux de leurs utilisateurs. Du cancer au pliage des protéines, de la génération d’images au traitement de texte, de l’assistance aux programmeurs à la prise de notes lors de réunions, les domaines touchés sont nombreux et divers. Toutefois, une question se pose : si le langage est un des piliers des IAG, qu’en est-il des applications de ces dernières aux domaines du langage ? Car, en effet, si les différentes sciences du langage comme la syntaxe et la phonétique ont permis de développer les capacités langagières des différentes IAG, ces dernières peuvent à leur tour consolider leur propre base de différentes manières. Ainsi, dans cet article nous verront l’application des IAG sur trois domaines du langage, à savoir l’apprentissage des langues par nous autres humains, les sciences du langage (c’est-à-dire la linguistique) et l’idéolinguistique.
L’application la plus évidente et celle qui touche le plus de monde est bien évidemment celle de l’apprentissage des langues. Des modèles de dialogue populaires et faciles d’accès comme ChatGPT, qui maîtrise quelques 95 langues, sont l’occasion parfaite pour apprendre des langues. De plus, certaines IAG sont volontairement adaptées pour l’apprentissage des langues (vous en trouverez pléthores avec une simple recherche google) et proposent des fonctionnalités spécifiques comme la correction de ce que l’utilisateur dit, la capacité de dialoguer vocalement, des capacités d’entretenir des dialogues sur des sujets très populaires en ayant un accès à internet, etc. Bien que par le passé une traduction simple et parfois bancale pouvait déjà être très utile pour l’apprentissage de langues, aujourd’hui les possibilités d’apprentissage sont démultipliées et révolutionnées par l’IAG. La complexification de l’IAG permet aussi aujourd’hui l’apprentissage et traduction de langues autrefois difficiles d’accès comme les langues des signes. Certaines IAG comme Signapse permettent maintenant de traduire du langage vocal au langage signé (dans le cas de Signapse c’est depuis l’anglais vers la langue des signes américaine) de la même manière que les nouveaux modèles de ChatGPT ou autres permettent une traduction de l’écrit vers le vocal et vice versa. Un dernier avantage de la sorte est la possibilité pour l’IAG de s’adapter à votre propre apprentissage, difficultés et besoins, et de vous proposer des tests personnalisés instantanés ainsi qu’une correction immédiate.
La démocratisation de l’informatique et de l’IAG permet aussi à des individus de prendre des initiatives pour rendre accessibles plus de langues à l’apprentissage. Par exemple, en Nouvelle-Zélande Jonnie Cain et Jason Lovell ont créé Reobot, un chatbot qui permet de discuter et d’apprendre te reo Māori, la langue indigène de Nouvelle-Zélande qui a par le passé subit une pression linguistique très forte de la part de l’anglais néozélandais. Ce projet rejoint un intérêt grandissant pour le Maori néozélandais (à ne pas confondre avec le Maori des îles Cook) de la part des Néozélandais, qui est lié à l’émergence d’une culture typiquement néozélandaise héritant plutôt fortement de la culture Maorie. Reobot est suivit de nombreuses initiatives similaires (FirstVoices, Opie, etc) à travers le monde qui répondent à l’intérêt croissant de nombreuses populations pour les langues d’héritage (heritage languages) et pour la préservation du patrimoine linguistique. Ces initiatives sont d’autant plus intéressantes qu’elles doivent faire face à un problème majeur, à savoir le manque de locuteurs et/ou de bases de données écrites, d’où l’intérêt d’avancées technologiques comme la possibilité de faire passer les IAG par la parole ou encore comme le Deep Learning qui pourrait, à terme, permettre des traduction et locutions performantes avec des langues peu dotées. Ainsi, il y a un espoir de meilleure conservation des langues vivantes en danger, quand 42% des langues du monde sont menacées de disparaître d’ici les 100 à 150 ans à venir (soit entre 2900 et 5500 langues, dépendamment de comment l’on compte).
Une utilisation tout aussi intéressante des IAG concernant l’apprentissage serait l’adaptation de ce dernier au niveau neurologiques. Notre compréhension du cerveau humain augmente tout en restant imparfaite, ainsi avoir des outils pour favoriser l’apprentissage quand celui-ci doit coexister avec des troubles cognitifs ou des troubles de l’apprentissage est un atout révolutionnaire. En particulier, adapter les supports d’apprentissage à des individus dyslexiques, étant dans le spectre autistique ou présentant tout autre trouble spécifique du langage et de l’apprentissage permet une avancée importante dans l’éducation et même dans notre propre compréhension de ces troubles.
Au niveau linguistique, l’arrivée et le développement de l’IAG a aussi des conséquences intéressantes à noter. La première d’entre elles fait écho à ce que nous avons dit précédemment. En effet, bien que les IAG de langage sont loin d’êtres parfaites et ne maîtrisent qu’un nombre faible de langues, elles offrent des perspectives présentes et futures intéressantes. Des chercheurs du MIT par exemple ont développé une IA qui peut comprendre les structures, règles et patterns des langues humaines. Elle est capable d’analyser et des comprendre ces patterns sur plusieurs niveaux de complexité et, surtout, est capable de le faire avec un nombre de mots très limité (par exemple avec une douzaine de mots). Ainsi, une telle IA combinée avec la possibilité de lui enseigner une langue complètement pourrait permettre à des linguistes ou individus isolés et/ou n’ayant pas une connaissance et aisance suffisante avec l’informatique de préserver des langues en danger ou difficiles d’accès, et ce en rendant accessible une traduction et une grammaire des langues concernées. Concernant l’enseignement de langues à l’IAG, plusieurs personnes ont annoncé avoir pu enseigner des langues à ChatGPT telles que le Toki Pona avec des modèles tournant en local, bien que ce soit contesté par le fait que le Toki Pona aurait déjà pu être ancré dans les bases de données de ChatGPT étant donné que c’est une langue accessible avec une communauté très active sur internet.
Une autre application possible dans le domaine linguistique serait d’améliorer notre compréhension des langues anciennes, parfois partiellement indéchiffrées, et surtout des mécanismes qui les ont fait évoluer dans des langues modernes. Des chercheurs du MIT (oui, encore) ont par exemple créé une IAG qui est capable de déchiffrer et traduire des langues anciennes. Elle a par exemple pu déchiffrer le Linéaire A avec succès et affiche globalement un succès de plus de 60% pour le moment, ce qui affiche de beaux espoirs pour d’autres langues et systèmes d’écritures comme le Linéaire B ou le mystérieux manuscrit de Voynich. Au niveau de la compréhension évolutive du langage, on pourrait se servir de la capacité des IAG à analyser et traiter des corpus énormes pour expliquer de manière plus claire et synthétique les évolutions en question. Dans un premier temps, un simple coup d’œil à l’index diachronique nous permet d’observer des mutations phonétiques obscures et males expliquées, parfois même qui contreviennent aux principes de la linguistique (exemples : « V → ∅ / _# “in nominals » en proto-Boreafrasian ou encore « V{j,w}V → aː / in some sequences » en arabe classique). Ainsi, l’IAG pourrait nous permettre de trouver des explications plus précises et moins aléatoires à ces mutations en élargissant les règles de mutation. Une telle analyse de corpus serait tout aussi pratique et bienvenue en grammaire, sémantique ou pragmatique. Une telle régularisation de ces domaines pourrait notamment permettre leur stabilisation, étant donné que la sémantique et la pragmatique sont des champs de batailles rangées entre linguistes qui n’arrivent jamais à trouver un consensus sur le pourquoi du comment de nombreuses caractéristiques du langage.
Dans le même modèle, l’utilisation de l’IAG pourrait nous permettre de mieux retracer les origines, le fonctionnement et l’évolution (inversée) du langage. En effet, si au XIXe l’avancée majeure en linguistique était la comparaison de nombreux corpus de langues qui a aboutit à la découverte de la supra famille des langues Indo-Européennes, aujourd’hui ce domaine est bloqué car dans la plupart des cas « un chaînon manque » pour pouvoir avoir des reconstructions d’ordre supérieures. Bien que de nombreuses théories existent, elles sont débattues étant donné que les arguments donnés s’appuient sur des hypothèses qui elles-mêmes s’appuient sur des hypothèses et cætera, donnant une instabilité exponentielle dans la reconstruction à mesure que l’on augmente l’ordre de reconstruction. Le défaut dans ces reconstructions est principalement humain : en étant humain on manque la vision nécessaire pour tout considérer, que ce soit des mécanismes culturels, grammaticaux ou des langues filles qui pourraient appuyer une reconstruction. Ainsi, l’analyse des corpus des langues filles par l’IAG pourrait nous permettre de générer des langues mères plus stables et moins hypothétiques qui à leur tout nous permettrait de faire des hypothèses beaucoup plus stable quant à l’origine de nombreuses familles de langues, et ce en considérant tous les facteurs d’évolution possible (par exemple : si les famille de langues Indo-Européenne et Ouralienne pourraient être très proche il est quasiment impossible avec nos simples capacités humaines de savoir si cette proximité est due à une ascendance commune ou à un contact prolongé à leurs débuts). Une autre utilisation plus complexe de l’IAG et plus lointaine dans le futur pourrait être l’analyse et la reproduction des mécanismes du cerveau humain afin d’apporter une réponses à certaines théories s’appuyant sur la biologie ou la mathématique qui ne peuvent apporter de preuves observées et concrètes comme la théorie de l’universalité du langage de Chomsky ou encore toutes les théories quant à l’origine du langage humain et animal qui ne peuvent être résolues en testant en condition réelles car pouvant faire appel à des notions eugénistes et non-éthiques.
Pour terminer nous verrons les applications de l’IAG dans le domaine de l’idéolinguistique. Tout d’abord, il convient de préciser la définition de ce terme : l’idéolinguistique c’est une discipline qui concerne la création de langues. On peut créer des langues par souci de communication (espéranto), pour tester des hypothèses linguistiques comme celle de Saphir-Whorf (Toki Pona) ou encore par simple passion et folie artistique. Enfin, précisons que cette discipline se situe sur la dorsale de l’art et de la science : il s’agit d’un art car sujet de création et d’imagination, toutefois elle nécessite également une connaissance approfondie du langage pour se réaliser.
Plusieurs outils d’IAG sont utilisés par les idéolinguistes, qui tous permettent de leur faciliter la vie et de mieux se représenter leurs travaux. En particulier, des outils pour se représenter et mieux comprendre leurs langues maternelles sont très utiles et bienvenue. En effet, une grande partie de l’idéolinguisme repose sur la traduction de corpus, traductions qui poussent à la création lexicale et à la réflexion sur la langue créée. Toutefois, pour cela il faut avant tout comprendre la langue de départ, souvent la langue maternelle de l’idéolinguiste ou une langue de travail, qui n’est pas toujours évidente dans son fonctionnement au locuteur natif. Ainsi, des IAs comme Parts-of-speech sont les bienvenues. Parts-of-speech est une IA qui permet d’entrer un texte et d’analyser les fonctions syntaxiques des mots au sein du texte. Comprendre les fonctions syntaxiques des langues de départ permet donc une meilleure traduction et construction de l’idéolangue créée.
Une utilisation toujours hors de portée mais qui donne de l’espoir aux idéolinguistes est l’utilisation de l’IAG comme assistant direct dans le processus de création. Jusqu’à présent de rares outils existent comme Vulgarlang dont l’utilisation est très limitée. En effet, Vulgarlang n’est qu’un algorithme qui donne des paramètres de langues toujours similaires, pas très innovants. Cet algorithme n’est pas capable d’apprentissage et répète toujours le même modèle. Dès lors, la communauté d’idéolinguistes a pour espoir un développement prochain d’IAGs qui pourraient les assister dans le processus de création. Cela pourrait varier de l’assistance dans la mise en place de la logique globale et la cohérence de la langue à donner des idées d’étymologies ou caractéristiques originales et naturelles (plutôt que de devoir chercher par soi-même dans l’ensemble des langues existantes), en passant par l’aide à la création de néo scriptes (i.e. de nouveaux systèmes d’écriture) lorsque l’utilisateur passe les caractéristiques du scripte, son histoire ou autre. De telles IA seraient ainsi très utiles à la fois pour les créateurs ne voulant ou ne pouvant pas s’attarder sur la logique inhérente de leurs créations mais également les créateurs manquant d’imagination et préférant travailler sur la cohérence du projet.
Pour conclure, si le langage est un pilier de l’Intelligence Artificielle Générative, ces dernières peuvent également s’appliquer dans les différents domaines du langage. Dans un premier temps, elle révolutionne l’apprentissage des langues, permets de rendre plus accessible certaines langues moins connues et est une aide à l’apprentissage pour les individus atteints de divers troubles de l’apprentissage et du langage. Ensuite, elle offre des espoirs d’analyse du langage afin de mieux le comprendre, entre autres pour documenter plus facilement des langues rares, des espoirs d’une aide au déchiffrage de langues anciennes ainsi qu’une aide à la reconstruction linguistique. Pour finir, elle offre en perspective pour les idéolinguistes d’une aide à la compréhension des langues naturelles et d’une aide à la création d’idéolangues. Ainsi, l’IAG est et sera très utile dans les différents domaines du langage, ses perspectives sont nombreuses et très attendues par les différentes communautés linguistiques.
Liens et documentation :
- Signapse : https://www.signapse.ai
- Reobot : https://learnjam.com/meet-reobot-the-worlds-first-maori-language-chatbot/
- Opie : https://www.abc.net.au/news/2017-11-01/opie-the-robot-helping-preserve-ancient-aboriginal-languages/9108248
- FirstVoices : https://www.firstvoices.com/
- IA du MIT sur la reconnaissance de patterns dans le langage : https://news.mit.edu/2022/ai-learn-patterns-language-0830
- Parts-of-Speech : https://parts-of-speech.info
- Pour les curieux, Indexe Diachronique : https://chridd.nfshost.com/diachronica/
- Autre article : https://textinspector.com/artificial-intelligence-in-languages/#:~:text=Even%20though%20the%20applied%20sides,endangered%20languages%2C%20reconstructing%20extinct%20ones%2C