TALN : Traitement Automatique de la Langue Naturelle
Le traitement automatique de langue et l’information textuelle est un domaine multidisciplinaire impliquant la linguistique, l’informatique ainsi que l’intelligence artificielle, et vise à créer des outils de traitement de langue naturelle pour diverses applications.
Dans la visée de « résumé » les textes, la compression de phrase permet d’éliminer les constituants non essentiels à la compréhension de la phrase. Cet acte permet de participer à résoudre de grand problème a l’échelle mondial, notamment avec l’augmentation de nombre des pages web indexées de 10 milliards en 2008 à 43 milliards en 2013.
De nombreuses difficultés sont présentes : le nombre de langues des documents, la classification des documents par sujet, le regroupement des documents, l’extraction d’informations jusqu’à finalement le résumé automatique.
Pour ce dernier, on fait en sorte que les algorithmes seront capables de traiter toutes les langues de la même façon. Pour cela, on s’ appui sur les statistiques plutôt que la linguistique.
L’un des personnages historique du résumer de textes est Joseph Joubert (1754-1824) qui « est un homme tourmenté par la maudite ambition de mettre tout un livre dans une page, toute une page dans une phrase, et tout une phrase dans un mot. » (Citation de Joubert lui même).
Article écrit suite à une conférence avec l’enseignant-chercheur du CERI : Juan-Manuel TORRES