Rapport du Projet de Traduction Omnidirectionnelle des Langues des Signes.

28 juin 2024 Titouan JOHANNY

Préambule

Afin de comprendre l’utilité d’un outil interagissant avec des langues signées, il faut préciser la nature des langues signées.

Les langues des signes sont des systèmes langagiers propres, c’est-à-dire des systèmes évolutifs de signes linguistiques gestuels permettant la communication entre des individus.

Dans les faits, cela veut dire qu’il existe une multitude de langues des signes indépendantes, appartenant à plusieurs familles de langues, ayant des syntaxes propres, des grammaires propres, des typologies différentes, appartenant à des cultures différentes, etc.

Ainsi, les langues des signes ne sont pas une transcription de langues orales; il ne suffit pas de remplacer chaque signe par un mot français pour comprendre ce que dit un locuteur de la Langue des Signes Française (LSF), et vice versa. Les langues des signes sont indépendantes des langues orales, bien que, comme toutes langues, des emprunts et interactions ont lieu. Dans le cas d’une langue orale signée on parlera de français signé, de japonais signé, etc.

Pour conclure, une langue des signes agit en tout point comme une langue orale à la différence près que son mode de communication est majoritairement gestuel et visuel. Une langue des signes demande donc les mêmes efforts qu’une langue orale afin d’être traduite.

Introduction

Contexte

Ce rapport fait suite au projet intégrateur de première année en Cursus Master Ingénierie, Ingénierie Informatique, au Centre d’Enseignement et Recherche en Informatique de l’Université d’Avignon.

L’équipe de ce projet se compose de : Johanny Titouan, Harouda Sara, Dramé Ibraïma, Rochas Sylvain, Sephanh Cédric, Sarrasin Lilien. Ce projet a été supervisé par M. Spriet Thierry.

Nous remercions M. Leith A. Kabouya (Université Paris-Sorbonne Abu Dhabi) pour son aide dans le domaine juridique.

Sujet

Création d’un moteur de traduction omnidirectionnel de langues des signes. C’est-à-dire d’une langue orale vers une langue des signes, d’une langue des signes vers une langue orale et d’une langue des signes vers une langue des signes.

Problématique

Les langues des signes sont utilisées couramment par environ 72 millions de personnes dans le monde comme mode de communication privilégié. Elles sont adaptées aux difficultés que rencontrent les personnes malentendantes qui ne leur permettent pas de manier des langues orales avec aise, même écrites. Il existe 24 langues des signes utilisées par plus de 10 000 locuteurs, et elles agissent comme langues maternelles, véhiculaires et vernaculaires, dans les communautés malentendantes qui les emploient.

Toutefois, les langues des signes ne sont que peu connues, encore moins utilisées et enseignées, par le monde des personnes entendantes. Cette méconnaissance donne lieu à des barrières linguistiques importantes au sein de sociétés où l’information et la communication sont devenues une source de stimulation permanente. Il se trouve alors que des communautés de personnes physiquement désavantagées sont marginalisées par le manque de communication dans les moyens qui leur sont offerts.

De plus, le manque de connaissances, d’informations et de communication vers et depuis les langues des signes limitent leur nombre de locuteurs. Selon l’OMS, au moins 430 millions de personnes souffrent de perte de l’audition importante et incapacitante. Ce qui veut dire que seulement 17% des personnes malentendantes avec handicap fort sont capables de s’exprimer dans une langue des signes. Ainsi, 83% des personnes malentendantes avec handicap fort sont soit obligées d’apprendre ou d’utiliser une langue orale, ce qui est difficile compte tenu du handicap, soit se retrouvent en situation d’isolement et de solitude car incapables de communiquer correctement avec les autres membres de leur société.

A l’heure actuelle, les alternatives sont peu nombreuses et souvent peu pratiques : Communiquer en écrivant est incapacitant dans la vie active, même à l’heure du numérique; les appareils auditifs et implants cochléaires sont peu abordables, ont souvent des procédures compliquées et longues, et requièrent des conditions pour leur fonctionnement optimal comme le calme autour des conversations de leur porteur.

Enfin, nous noterons que les communautés malentendantes et signantes sont souvent réticentes à obtenir des appareils auditifs car craignant de perdre leur culture propre. Les cultures développées dans ces milieux sont distinctes du monde entendant. De plus, sous stimuli et lors de la formation de communautés malentendantes, il est observé une propension naturelle à l’utilisation des langues des signes, que ce soit en apprenant ou en créant.

C’est pourquoi, et ce afin de promouvoir l’intégration des personnes malentendantes et faciliter l’accès à l’information, il est important selon nous de développer des outils permettant la traduction omnidirectionnelle des langues des signes; outils qui à leur tour vont promouvoir l’usage des langues des signes, le besoin et la facilité future de communication avec personnes malentendantes.

Nous répondrons alors dans ce rapport à la question suivante :

Comment et pourquoi créer un moteur de traduction omnidirectionnel de langues des signes de manière innovante, humaniste et entrepreneuriale ?

Pourquoi ?

Un traducteur de langues des signes vise en premier lieu les personnes malentendantes qui ont besoin de communiquer facilement avec des personnes entendantes (Qui ?). Il peut aussi servir à des locuteurs de langues des signes différentes qui ne maîtrisent pas la langue des signes internationale. Il vise à résoudre les problèmes de communication de la vie courante afin de faciliter la vie aux personnes malentendantes et permettre leur intégration plus facile sans passer par l’apprentissage difficile de langues “étrangères” orales (Quel problèmes ?). Enfin, il vise à protéger la dimension sociale et culturelle des langues signées, ainsi que de permettre l’intégration de personnes malentendantes non signantes vivant isolées du monde (Quel avenir ?).

Qui ?

Les langues signées aujourd’hui

Les langues des signes sont diverses et variées. On recense plus de 150 langues des signes significatives parlées dans le monde, il en existe au total probablement plus de 300, comptabilisant plus de 72 millions de locuteurs. Parmi elles, 24 sont parlées par plus de 10 000 locuteurs, comptabilisant à elles seules plus de 15 millions de locuteurs ou 21% du nombre total de locuteurs de langues signées. Ces langues représentent de très grosses bases de locuteurs, comme la langue des signes Indo-Pakistanaise comptabilisant plus de 6 millions de personnes selon Ethnologue ou la langue des signes Chinoise qui comptabilise plus de 4 millions de signants estimations basses. Ces langues signées sont capables de rivaliser en nombre avec des langues orales comme l’Albanais ou le Slovène; toutefois si ces dernières disposent de traduction automatique, les langues des signes avec d’aussi grosses bases de locuteurs n’en disposent pas malgré les bases de données formées dans des dictionnaires accessibles en ligne.

Il faut également noter que les langues des signes sont certes en majorité parlées par des personnes malentendantes mais aussi par les groupes de personnes entendantes, en général l’entourage proche, parfois des villages ou petites communautés, qui vivent avec eux.

Les personnes malentendantes : un groupe potentiel

D’après l’OMS : “Over 5% of the world’s population – or 430 million people – require rehabilitation to address their disabling hearing loss (including 34 million children).”.

5% de la population est suffisamment malentendante pour avoir un besoin nécessaire de correction de l’audition pour continuer à avoir une communication normale avec le reste du monde. Si aujourd’hui ces 5% représentent 430 millions de personnes, en 2050 ce nombre aura grimpé à plus de 700 millions de personnes. De plus, 80% des personnes malentendantes vivent dans des pays aux revenus faibles ou moyens, où l’accès à la médecine pour corriger son audition est faible et/ou difficile. Sans moyens de regagner son audition, c’est l’isolement assuré et la communication difficile avec son entourage. A l’heure actuelle, plus de 34 millions d’enfants sont malentendants avec incapacité, ce qui veut dire plusieurs millions d’enfants qui n’ont pas une sociabilité correcte, une éducation accessible, un accès à l’administration accessible s’ils n’ont pas la capacité de communiquer correctement avec des moyens à leur portée.

Quel problèmes ?

Les personnes malentendantes (signantes ou non) rencontrent de nombreux problèmes incapacitants dans nos sociétés où cette communauté est peu représentée. Une étude du CNSA et de l’INPES faite en France montre de nombreux problèmes que rencontrent les personnes malentendantes du point de vue social.

Discrimination : les personnes malentendantes sont souvent discriminées et stigmatisées, que ce soit dans la rue, à l’emploi, dans les services publics, etc. Dans ce genre de situations, les personnes malentendantes sont écartées ou mal traitées en raison du manque de communication aisée. Les personnes malentendantes passent pour “des personnes manquant d’intelligence” (p.53 de l’étude), subissent des violences, des humiliations, des attaques personnelles, etc.

Accès à l’emploi difficile : Au travail, la difficulté de communication rend très difficile l’emploi de personnes malentendantes, ou parfois provoquent des licenciements pour faute causée par une incompréhension. Au delà de la discrimination, la difficulté d’accès à l’emploi pose aussi un problème économique important pour de nombreux membres des communautés malentendantes.

Les ajustements sur les lieux de travail se font rarement et sont coûteux, donc pas pratiques pour l’employeur. L’incompréhension de la situation des personnes malentendantes joue aussi beaucoup sur le manque d’adaptations. L’accès à l’emploi est rendu difficile par un niveau d’étude et de qualifications souvent plus faible car lui-même rendu compliqué.

Manque d’accès à l’éducation : les enfants malentendants ont souvent des difficultés à accéder à une éducation en langue des signes en raison du manque de professeurs pouvant communiquer de la sorte et en raison du manque d’écoles spécialisées. De plus, beaucoup d’enfants malentendants grandissent dans des milieux entendants et ne se voient jamais avoir accès à l’enseignement d’une langue des signes afin de faciliter la communication et leur propre expression. Enfin, dans des écoles entendantes le suivi est difficile en raison de la difficulté supplémentaire de compréhension quand on doit lire sur les lèvres en plus de comprendre, retenir et écrire.

Manque d’accès aux services publiques : lors de situations importantes comme une situation médicale d’urgence, un dépôt de plainte, un renouvellement de passeport, etc, le manque de communication rend les choses difficiles, voire dangereuse, fausse les informations et parfois mène aussi à de la discrimination en minimisant les problèmes auxquels font face les personnes malentendantes.

Isolement : lorsqu’on vit dans un milieu entendant, si l’on ne parle pas de langue des signes et que l’audition est trop mauvaise pour comprendre les locuteurs oraux, on se retrouve vite isolé et incapable de s’exprimer rapidement sans passer par l’écriture. Écriture qui n’est d’ailleurs pas toujours évidente pour les personnes malentendantes de naissance car rattachée à une langue orale (considérée comme étrangère). Parler une langue des signes ne règle pas le problème si l’entourage entendant n’en parle pas. Ainsi, des communautés malentendantes se forment où il est possible de s’exprimer et de communiquer activement, mais ces communautés sont souvent coupées du reste de la société et ont du mal à s’impliquer dans des évènements courants comme la politique, le divertissement, etc.

D’après l’étude du CNSA et de l’INPES : “quand le niveau de surdité est relativement important, toute interaction basée sur l’oral s’avère potentiellement problématique pour soi (et éventuellement pour l’autre). A minima, les personnes ne peuvent plus capter les détails des discussions, leurs subtilités, l’humour, les paroles recueillies à voix basses, celles des enfants trop aiguës pour les appareils… Ce qui fait l’authenticité de l’échange, sa spontanéité,n’existe plus. La participation à des situations de groupe (réunions familiales, de travail, cours, formations, activités de loisirs…) est freinée par la fatigue occasionnée par les difficultés de concentration et dans la mesure où l’appareillage y trouve ses limites.” (p.9).

Enfin, l’isolement au niveau communautaire est problématique car limitant l’information atteignant les communautés malentendantes et risquant leur déformation (p.22 de l’étude).

Tout cet isolement est un des facteurs majeurs pour un individu qui conduisent à la dépression et aux atteintes à la santé mentale.

Manque de représentation politique : comme dit précédemment, l’isolement prévient souvent l’implication dans le monde politique. De plus, le retrait des communautés malentendantes par crainte de discriminations les rend souvent invisibles aux yeux des politiques. Ainsi, les structures sociétales nécessaires à l’intégration et au bien être des personnes malentendantes sont souvent faibles voire nulles car personne ne s’en préoccupe.

La culture entendante comme obstacle : “Même lorsque l’écrit est compris et l’oral maîtrisé, des sourds indiquent un manque de confort et de plaisir dans la lecture et de fait, un manque d’appétence pour celle-ci, délaissée au profit d’informations plus visuelles.” (p.19). La culture entendante est adaptée aux entendants, pour une personne sourde de naissance il est difficile de s’y adapter, l’écrit est inconfortable, on ne comprend pas toutes les références passées depuis la culture entendante, etc. Ce qui explique aussi pourquoi de nombreuses personnes refusent les avancées médicales concernant la restauration de l’audition : il est difficile de changer de culture.

Traduction en direct souvent compliquée : la traduction d’une langue orale vers une langue des signes en direct est souvent compliquée en raison de la différence des structures grammaticales, du contexte, etc. Beaucoup de personnes malentendantes finissent par demander aux interprètes de signer directement de l’anglais ce qui n’est pas pratique pour eux mais toujours plus claire qu’une langue des signes traduite rapidement et chaotiquement. Cette traduction en direct s’explique en partie par le fait que les interprètes n’ont pas grandi dans des milieux malentendants (et n’ont donc pas une langue des signes pour langue maternelle) et manque d’une formation efficace. C’est comme transposer des expressions anglaises en français, “il pleut des chats et des chiens” ne fait pas vraiment sens en français, le contexte ne porte pas à la compréhension de cette expression, si nous étions des locuteurs malentendants nous demanderions directement à ce qu’on nous parle en anglais malgré notre maîtrise insuffisante de cette langue.

Inaccessibilité des appareils auditifs : les appareils auditifs sont cher, souvent peu pratiques car nécessitant des conditions très spécifiques pour entendre correctement, ils prennent du temps pour la mise en place et l’entretien, et portent atteinte à culture malentendante. De plus, ils ne favorisent pas l’éducation d’enfants avec une surdité élevée car ne facilitent pas plus la communication qu’une langue signée, provoquent des maux de tête, font se concentrer l’enfant plus sur ce qu’il entend que l’information qu’on souhaite lui transmettre.

Méconnaissance : la méconnaissance des situations que rencontrent les personnes malentendantes freinent les interactions, les solutions, les adaptations, etc. Cette méconnaissance se trouve aussi dans les médias et internet, qui ne sont souvent pas adaptés pour la compréhension des personnes malentendantes (peu de sous titres, rarement des interprètes, etc).

Enfin, nous noterons une citation qui résume tout le projet de ce rapport, page 53 de l’étude du CNSA et de l’INPES : “Les personnes rencontrées qui pâtissent le moins de relations insatisfaisantes sont celles en capacité de communiquer en LSF avec leurs pairs”.

Quel avenir ?

Un moteur de traduction permettant la communication dans une société ségrégant les personnes en fonction de leur capacité à entendre permettrait de couvrir les problèmes évoqués, d’améliorer la visibilité des personnes malentendantes, de faire tomber les barrières qui séparent les communautés malentendantes et entendantes.

Enfin, ce moteur permettrait aussi de rompre l’isolement de personnes ne sachant pas signer, soit en les intégrant dans des communautés malentendantes et signantes, soit en leur permettant ainsi qu’à leur entourage d’apprendre une langue des signes. De plus, faciliter la communication avec des personnes malentendantes permet de favoriser la préservation des cultures malentendantes dans une optique de conservation de la diversité culturelle que nous connaissons.

Si l’usage des langues des signes est popularisé d’ici 2050 alors potentiellement une base de plusieurs centaines de millions de personnes pourraient avoir un besoin d’apprendre et de communiquer en langues signées. La création d’un moteur omnidirectionnel de traduction de langues des signes est donc aussi une perspective d’avenir et son propre outil pour sa popularisation en incitant l’utilisation des langues des signes. En effet, ce moteur sera original dans le sens où il concentrera la pluralité des langues des signes ainsi que la pluralité des directions de traduction, il prendra également mieux en compte la grammaire signée. Ainsi, cet outil sera plus attractif en concentrant les intérêts des différentes communautés malentendantes (et des acteurs qui leur sont associés) ainsi qu’en affichant une meilleure efficacité dans la compréhension des discours et enjeux signés.

Comment ?

Les langues signées, ayant un mode de transmission de l’information différente des langues orales, posent plusieurs problèmes dans leur traduction automatique. Dans un premier temps, il faut réussir à les capter, puis il faut reconnaître les signes avant de les traduire vers une langue orale ou signée. Enfin, il faut pouvoir représenter des discours signés lors d’une traduction vers une langue des signes.

Capture vidéo

La capture vidéo consiste à enregistrer le mouvement d’un discours signé. Lors d’une capture vidéo, il faut donc pouvoir détecter les mains et leur mouvement afin de, plus tard, reconnaître les signes. Toutefois, le défi principal est que le mouvement ne peut pas être compris comme une trajectoire seule mais plutôt comme un ensemble de paramètres : une langue des signes réalise sa grammaire par de multiples paramètres, qui varient langue à langue, comme l’amplitude de mouvement, la vitesse, la position de départ et d’arrivée des signes, etc. Enfin, une partie de la grammaire passe aussi par les expressions faciales voire par les sons émis (être malentendant ne veut pas dire ne pas pouvoir reconnaître un son).

Afin de capturer de manière efficace une langue des signes, il faut donc considérer différents arrières plans et ne pas se limiter qu’à la trajectoire des mains seule. Voici un ensemble de capteurs qui peuvent être envisagés car possiblement appropriés :

Capteurs visuels:

KINECT: Kinect permet aux utilisateurs de contrôler et d’interagir avec la console sans avoir besoin d’un contact physique avec une manette de jeu vidéo traditionnelle, grâce à une interface utilisateur naturelle qui reconnaît les gestes, entre autres.

Ce dispositif n’est pas seulement utilisé dans le domaine des jeux vidéo, mais aussi dans d’autres domaines tels que la rééducation. Dans le domaine de la rééducation, le capteur Kinect a été employé comme outil pour aider les patients à effectuer des exercices de mouvement et de renforcement. Le capteur peut détecter et suivre les mouvements du corps en temps réel, ce qui permet au thérapeute ou au patient d’évaluer la qualité et la précision du mouvement. En outre, le capteur peut fournir un retour visuel et auditif en temps réel pour aider le patient à corriger sa posture et ses mouvements.

Et, bien sûr, il a déjà été utilisé pour développer un traducteur en langue des signes. Des chercheurs chinois, en collaboration avec Microsoft Research, ont mis au point un traducteur en langue des signes. Celui-ci permet la communication entre les personnes qui parlent la langue des signes et celles qui ne la parlent pas. Il fonctionne dans les deux sens, traduisant la langue des signes en texte écrit de la manière dont la personne s’exprime et vice versa, grâce à un avatar qui affiche en langue des signes ce que la personne est en train de dire. Malheureusement, Kinect est limité en distance.

LEAP MOTION : Il est capable de capturer les positions en 3D des mains et des doigts MAIS doit fonctionner à proximité du sujet. Il a été utilisé auparavant pour enregistrer des gestes de la langue des signes. De nombreuses études ont montré le potentiel de ce dispositif, mais l’interface de programmation d’applications (API en anglais) qui supporte l’appareil n’est pas encore prête à interpréter toute la gamme de la langue des signes. À l’heure actuelle, Leap Motion peut être utilisé pour la reconnaissance des signes de base, mais il n’est pas adapté aux signes complexes, en particulier ceux qui nécessitent un contact avec le visage ou le corps. Les signes deviennent donc imprécis et impossibles à distinguer. De nombreuses recherches et formations sont encore nécessaires.

RFID : Des antennes et des lecteurs de signaux RFID ont été adoptés pour la reconnaissance de la langue des signes. Des étiquettes d’identification par radiofréquence (RFID) passive pour capturer simultanément plusieurs micro-mouvements des doigts afin de permettre la prise en charge de la langue des signes.

Capteurs portables :

EMG: Les électromyogrammes sont utilisés pour capturer l’activité électrique des muscles pendant les mouvements du bras. Le brassard Myo et d’autres objets portés sur soi capturent les signaux pour la reconnaissance. Le Myo est un brassard intelligent qui s’attache autour de l’avant-bras et utilise une série de capteurs EMG pour détecter les impulsions électriques générées par les contractions musculaires. Les données générées sont envoyées à l’appareil connecté pour reconnaître et interpréter le mouvement.

Smartwatches : Utilisées pour collecter les signaux gestuels et les traduire en langage parlé en temps réel en envoyant vers un smartphone. Très limité.

Les smartwatches sont utilisées pour recueillir des signaux gestuels et les traduire en langage parlé en temps réel, en envoyant ces données à un smartphone. Elles captent les mouvements du poignet à l’aide de capteurs intégrés. Ces appareils peuvent reconnaître des gestes spécifiques et les interpréter en commandes vocales ou textuelles. Toutefois, les capacités des smartwatches sont limitées par la petite taille de leur écran, leur faible puissance de traitement et la courte durée de vie de leur batterie. En outre, la précision de la reconnaissance des gestes peut être affectée par des variations individuelles dans la manière dont les gestes sont effectués.

DATA GLOVES : Fournissent des résultats très précis en temps réel, mais peuvent nécessiter des réglages (flex sensor…) et sont considérés comme invasifs par les personnes qui signent (un peu désagréables pour l’utilisateur).

A terme, il sera intéressant voire crucial de permettre de capter une langue des signes à partir d’un téléphone portable. Ainsi, n’importe quelle vidéo prise par un utilisateur pourra être traduite, ce qui permettra une démocratisation très importante du moteur de traduction. Toutefois, pour cela il faudra développer une technologie permettant de capter le mouvement en utilisant les capteurs par défaut des téléphones, ou en utilisant une simple vidéo déjà prise. Pour ce faire, nous pouvons, encore une fois, imaginer une solution se basant sur l’IA ,ainsi que sur la technologie utilisée par les fabricants de jeux vidéo pour l’animation d’avatars (à partir de vidéos de motion actors).

Reconnaissance

L’étape de la reconnaissance consiste à interpréter le mouvement, c’est-à-dire à coller une étiquette sur chaque signe ou groupe de signes. Ainsi, on rend accessible l’input en passant de mouvements captés à des mouvements reconnus et donc traitables. Une telle reconnaissance peut être réalisée grâce à une intelligence artificielle. En effet, comme dit précédemment l’analyse de la trajectoire manuelle seule n’est pas suffisante pour une reconnaissance et traduction adéquate de langues signées : la moindre variation de mouvement, d’expression faciale, d’ordre des signes, etc, peut venir modifier le discours.

Pour développer et entraîner cette IA, deux types de bases de données peuvent être envisagées :

Les ensembles de données de reconnaissance continue de discours :

Elles consistent à classer les vidéos signées en phrases entières, ce qui constitue un défi en raison de l’absence d’annotations précises concernant les limites des signes. Un exemple est BSL-1K, une grande base de données contenant des enregistrements vidéo d’émissions d’actualités britanniques pour la langue des signes, c’est-à-dire des discours connus et plus facilement segmentables.

Les ensembles de données de reconnaissance de signes isolée :

Elles se concentrent sur la détection précise des gestes à signe unique dans les vidéos. Un exemple est LSA64, pour la langue des signes argentine, qui contient 3200 vidéos avec 64 types de signes différents exécutés par des gens non experts.

Le problème principal rencontré pour la reconnaissance est le manque de données, ce qui rend difficile l’entraînement d’une IA compétente dans ce domaine.

Traduction

Afin de traduire une langue des signes, il faut discuter du médium utilisé, c’est-à-dire : quand on reconnaît un discours, dans quoi est-ce qu’on va le transcrire avant de le traduire ou avant de le représenter ? Pour répondre à cette question, plusieurs solutions peuvent être envisagées :

La première solution serait de passer par SignWriting, qui est une écriture spécialisée pour les langues des signes. Elle présente donc cet avantage d’être précise et adaptée pour la situation, de plus elle possède une transcription Unicode. Elle présente aussi un gros désavantage qui est sa complexité d’écriture et est donc plus complexe à manipuler par un programme. Aussi, elle n’est pas un texte ordinaire, ce qui rend plus compliqué son traitement par des processeurs de texte normaux. Enfin, dû à son caractère en deux dimensions, elle rend impratique la transcription d’un ensemble de facteurs réalisés au même moment.

La deuxième solution est de considérer qu’une traduction précise est impossible en raison de la trop grande différence de nature entre langues des signes et langues orales. Dès lors, il est possible de directement transcrire une langue des signes en une langue orale de référence (exemple : LSF vers français), c’est-à-dire passer en français mais en continuant de suivre la grammaire de la langue initiale (exemple : à partir d’une discours on obtient “je pomme avant manger” que l’on transforme/traduit ensuite en “je mangeais une pomme” ou “j’ai mangé une pomme”). Cette solution présente le gros désavantage d’écarter toute la réalité de la langue signée initiale et d’être très imprécise. En revanche, elle permet une transcription beaucoup plus simple de traitement.

La troisième solution est de passer par un outil venant de la linguistique : le gloss interlinéaire. Cet outil permet d’éviter la complexité de SignWriting tout en gardant une grande précision. Le principal désavantage est qu’il faut entraîner très spécifiquement l’IA de reconnaissance dans une optique de spécialité d’étude linguistique afin d’avoir une transcription très précise. L’avantage du gloss est qu’il sert de pilier à la future transcription : là ou SignWriting ou une transcription en langue orale doit être traduite vers la langue orale que l’on demande, le gloss peut être interprété plus facilement (car indiquant avec précision toute la structure grammaticale) et donc propose un basculement beaucoup plus simple d’une langue vers une autre. Le gloss est donc une solution efficace et beaucoup moins gourmande en ressource pour la traduction.

Par la suite, à partir de médium de transcription, il est possible de proposer une traduction vers n’importe quelle autre langue ou depuis n’importe quelle autre langue.

Représentation

Le prochain défi est de pouvoir représenter un énoncé que l’on traduit vers une langue des signes. Traduire et afficher la traduction en SignWriting n’est pas possible : il s’agit d’un langage trop compliqué et maîtrisé par bien trop peu de locuteurs des langues des signes. Il est donc plus optimal et pratique pour l’utilisateur de représenter une langue des signes directement en signes. Pour ce faire, l’utilisation d’un avatar est possible car non seulement il s’agit de la représentation la plus humaine, qui affiche toute la dimension des langues signées, mais aussi car la technologie des avatars 3D est de plus en plus fine et développée. Parce qu’en effet, pour représenter correctement une langue signée, il faut pouvoir représenter toutes les subtilités évoquées précédemment.

Deux manières sont possibles pour animer un avatar : soit une animation mécanique où pour chaque séquence est enregistrée le mouvement de chaque membre, soit une animation par fusion de séquences préenregistrées. Dans les deux cas, l’utilisation d’une IA semble cohérent afin de soit déterminer les séquences de mouvements à injecter dans les déplacements de l’avatar (les signes mais aussi les aspects grammaticaux), soit en fusionnant de manière naturelle les séquences préenregistrées et en appliquant des éléments grammaticaux et d’éventuelles modifications au résultat. Les deux possibilités sont équivalentes et dépendent du modèle d’animation utilisé ainsi que du hardware utilisé (si on favorise un gros stockage avec les vidéos à utiliser ou si on veut privilégier une unité de calcul très performante et importante par exemple).

Interface utilisateur

Ce moteur de traduction aura une interface utilisateur similaire aux moteurs de traductions déjà existants (comme Google Translate ou DeepL) qui prendra la forme d’un site web ainsi que d’une application dédiés.

L’utilisateur pourra décider soit d’upload une vidéo soit d’écrire, aussi il y aura la possibilité de choisir la langue de départ et d’arrivée dans la traduction. Éventuellement, il sera possible de détecter la langue des signes utilisée. En dessous de l’input, sera affiché l’output, à savoir soit un texte soit une vidéo générée.

Le but de cette interface est que l’expérience soit intuitive, agréable et pratique pour un utilisateur ou une utilisatrice qui souhaite rapidement prendre en main une traduction dans une situation dite urgente.

Business Plan

Production

Compte tenu de l’avancée déjà importante des outils de traduction, d’analyse visuelle et de recherche dans la matière, un temps initial de recherche et développement de un an et demi peut être envisagé avant les premières bêta.

Afin de toucher le plus de monde et de disposer de bases de données importantes, il convient de commencer par les langues les plus parlées comme la langue des signes indienne, américaine ou française. Chaque langue doit être ajoutée au fur et à mesure compte tenu du temps nécessaire à l’adaptation à chaque spécificité voire de collecte de données sur le terrain.

Ainsi, durant la phase initiale, une seule voire deux langues devraient être développées afin d’afficher dès le départ la possibilité d’omnidirectionnalité. Envisager plus de langues lors de la phase initiale est compliqué compte tenu du coût de recherche et développement (R&D) initial sans revenu actif de société.

Toutefois, une fois le traducteur ouvert à l’utilisation, la R&D sera amortie plus rapidement compte tenu du faible niveau de coût de production à l’unité (s’il s’agit d’un logiciel/site web, quasiment tous les coûts se trouvent dans le R&D, aucune matière n’est nécessaire et quasiment aucun emploi associés à la production ne sont nécessaires). Une fois les premiers revenus engrangés, le développement d’autres langues est rendu possible et coûte de moins en moins cher à la fois pour l’entreprise mais aussi pour l’utilisateur. En effet, à chaque langue ajoutée l’expertise et l’efficacité augmente, tant du côté humain que du côté des outils utilisés, et le chiffre d’affaire avec bénéfices (car il s’agit d’une entreprise lucrative) permet de constituer une réserve suffisante pour la R&D qui limite l’impact sur le prix pour l’utilisateur.

La R&D concentrerait trois équipes de développeurs du moteur de traduction, un développeur interface et ergonomie/designer, un chef de projet et une équipe marketing (embauchée sur les 8 derniers mois). Chaque équipe peut être composée de deux à trois personnes. Les ressources humaines et comptabilité peuvent être externes au projet durant ses premières phases. Voici une estimation du coût d’un tel projet, en utilisant le système de cotisation et de taxation français, et les salaires médians français :

Postes	Nombre de personnes	Salaire par personne (net avant impôt)	Total pour l’employeur par personne par mois	Total (18 mois)
Développeur	9	4,500€	8,069€	1,307,178€
Designer	1	3,500€	6,308€	113,544€
Chef de projet	1	5,200€	9,420€	169,560€
Marketing (8 mois avant la fin du projet)	3	4,400€	7,893€	189,432€
Total	14	–	–	1,779,714€

Le coût du projet comprend aussi les charges qui devront être assumées. Pour calculer ces charges, nous n’avons pas trouvé d’informations précises en libre accès, le tableau suivant est donc une approximation vague à la hausse :

Charges	Coût	Total 18 mois
Coût des recrutements (estimation)	24,000 € (TTC, /personne recrutée, un mois de recrutement)	300,000 € (8 personnes, approximation selon la variabilité temporelle de recrutement par personne)
Comptabilité et RH (estimation, tout type inclus)	120 € (TTC, /heure)	69,120 € (32 h/mois)
Bureaux	180 € HT-HC/m²/an location, 263 € TTC-C/m²/an location (Avignon)	12m²/personne, 168m² de bureaux + infrastructures = 210m², 55,230 €/an, total : 82,845 €
Assurances (estimation)	35,000€/an	52,500€
Electricité (estimation)	500€/mois	9,000€
Internet	96€/mois TTC	1,728€
Miscellaneous (fonds de secours, matériel, etc)	–	500,000€
Total	–	1,015,193€

Le total du coût de développement d’un tel projet est donc estimé à 2,794,907€.

Ces charges et salaires sont constants après la R&D toutes conditions égales par ailleurs. Dans les faits, le développement des activités de l’entreprise nécessitera une augmentation des effectifs et donc une augmentation des charges, le total des dépenses augmentera ainsi. Par exemple, une fois le R&D initial mis en place, il peut être supposé que l’équipe marketing restera à plein temps, ce qui amène le coût de la masse salariale à 2,016,504€ sur 18 mois.

Monétisation

Afin de constituer un chiffre d’affaire au projet, plusieurs solutions peuvent être envisagées :

Une utilisation gratuite comme d’autres moteurs de traduction populaires, mais limitée à un nombre de mots ou de temps de vidéo gratuite par jour ou par essai. Au-delà de cette limite, un abonnement est nécessaire.

Ou bien une utilisation fermée qui nécessite une inscription. Lors de l’inscription, il est vérifié votre statut de malentendant ou non, ainsi que votre type d’utilisation. L’utilisation est gratuite pour les particuliers et payante pour toute organisation (associations, entreprises, etc).

Des publicités peuvent être affichées sur le site/application. Toutefois, afin de ne pas dégoûter l’utilisateur, elles ne doivent pas gêner l’utilisation en étant affichées dans un coin par exemple. De plus, il est possible de sélectionner des publicités en langues des signes, et des publicités proposant des produits adaptés aux communautés malentendantes.

Une utilisation qui est payante pour toute organisation l’utilisant à des fins sociales (médecin, fonction publique, etc) et peut être décidée de plusieurs façons: soit en fonction du nombre de traductions, soit d’un abonnement au mois, soit d’un abonnement au mois par pallier de nombre de traductions, etc.

Toute utilisation lucrative par d’autres services est rendue payante et contractuelle. Il peut s’agir par exemple d’une utilisation par sous titres chez Youtube ou Netflix, etc.

Marketing

Dans l’objectif de connaître le traducteur à la population un problème surgit, en effet comment faire télécharger une application inconnue du grand public. Pour cela plusieurs idées nous permettent de régler ce problème :

Les Collaborations : A l’heure actuelle, la majeure partie de la population est quotidiennement connectée sur internet avec notamment les différents réseaux sociaux (Instagram, Youtube, Twitch, X …). Dans ces réseaux se sont fait connaître des influenceurs qui sont suivis par des milliers/millions de personnes sur les différentes plateformes. Ainsi, avoir des collaborations avec ces influenceurs ferait connaître l’application à énormément de gens. De plus, nous pouvons également faire des collaborations avec les plateformes directement ce qui met en avant l’application et ça dans le monde entier.

Services publics : Imaginez que, lorsque vous allez voir votre médecin ou bien l’hôpital, on vous propose d’utiliser notre traducteur. En effet, des dizaines de millions de personnes par an en France ont un rendez-vous chez le médecin : l’approbation du médecin est une très bonne méthode pour faire connaître notre traducteur. Cela s’applique aussi aux autres services publics comme les écoles par exemple où des personnes malentendantes pourraient plus facilement s’intégrer et reste une bonne méthode pour faire connaître le traducteur.

Publicités : La télévision reste, malgré l’apparition d’internet et des réseaux sociaux, un des médias les plus consommés. Ainsi, nous pouvons diffuser des publicités afin de faire connaître notre traducteur. De plus, nous pourrions collaborer avec l’Etat sur des publicités concernant la sécurité routière, l’alcool, le harcèlement, c’est-à-dire des sujets tout aussi importants pour les communautés malentendantes; voire même demander une publicité approuvée par l’Etat sur notre traducteur si ce dernier approuve notre objectif social.

La Nouveauté : Notre outil est innovant dans la mesure où il concentre les utilisations de traduction. En effet, il existe déjà plusieurs traducteurs isolés qui traduisent d’une langue orale vers une langue des signes et qui ne gèrent qu’une seule langue (en général l’ASL). Souvent cette traduction est maladroite car se contentant d’accoler des signes sans réellement aucune perspective grammaticale. Notre traducteur est attractif car omnidirectionnel, prend en compte toute la dimension signée et concentre plusieurs langues.

Ces idées marketing sont ici présentées sous le prisme français mais elles seront, bien-sûr, adaptées et diffusées dans d’autres pays au fur et à mesure que le moteur sera capable de traduire les langues des signes d’autres communautés.

Revenus et Taxation

Pour une estimation des revenus nous devons en premier temps estimer le chiffre d’affaires potentiel. Pour ce modèle, nous supposons une utilisation gratuite avec publicité pour les particuliers et un abonnement professionnel, aucun contrat professionnel n’est envisagé. Nous supposons aussi que la première langue des signes développée sera la Langue des Signes Indienne (LSI) qui est la plus parlée avec 6,000,000 de locuteurs.

Pour atteindre ce chiffre d’affaires, il est nécessaire de capter 1% d’utilisateurs de la LSI par jour dont 70% seraient des particuliers et 30% des professionnels spécifiques à la communauté malentendante indienne (médecins, fonction publique, etc). Les revenus de publicité sont calculés selon un tarif par mille impressions de 10€, avec une publicité différente affichée toutes les deux minutes et un temps d’utilisation moyen de 20 minutes par jour.

Les abonnements sont fixés à 1,000 roupies indiennes par mois, ce qui équivaut environ à 11.2€. Voyez ainsi le tableau suivant :

Revenus LSI HT-HC	Proportion	Revenu Marginal	Revenu total par période	Revenu tranche de 18 mois (547j)
Publicité (Coût par Impression)	0.70%	0.01€*10	4,200€/j	2,297,400€
Abonnements	0.30%	11.2€/mois (ou 1000 roupies indiennes)	201,600€/mois	3,628,800€
Total	1%	–	–	5,926,200€

Nous devons ensuite déduire les taxes nécessaires. Pour cela, nous partons de la prémisse suivante : l’entreprise sera une Société À Responsabilité Limitée (SARL) française située à Avignon, et aura la quasi-totalité de ses revenus faits en Inde. Ainsi, certaines taxes sont modifiées en raison d’un chiffre d’affaires fait à l’étranger, il faut de plus passer au système de taxation sur les revenus indien (Goods and Services Tax) :

Taxation sur 18 mois	Taux	Montant de la taxe	Montant après taxe
Revenu Initial	–	–	5,926,200€
TVA (Indienne)	Exonération pour les abonnements, 18% pour les publicités.	413,532€	5,512,668€
Impôt sur les sociétés	Non applicable car majorité des bénéfices en Inde	0€	5,512,668€
Taxe sur les bureaux	N’existe pas dans le Vaucluse	0€	5,512,668€
Contribution à l’apprentissage	Non applicable à moins de 250 employés	0€	5,512,668€
Taxe d’apprentissage	0.68% des salaires bruts de la masse salariale	Compris dans le calcul des salaires
Contribution à la formation professionnelle	1% des salaires bruts de la masse salariale
Taxe sur les salaires	taxe progressive (100% des salaires imposables car réalisés à l’étranger)
CVAE	9.273% CA hors charges	483,217€	5,029,451€

Ainsi, nous pouvons maintenant connaître le chiffre d’affaires sur 18 mois hors taxes, hors charges et hors salaires en les déduisant :

Total du CA HT-HC-Hors Salaires

1,997,754€

Nous pouvons enfin déduire le remboursement du prêt initial de recherche et développement. A raison de juin 2024, les taux en vigueur à la Banque Centrale Européenne sont de 4.50% pour un emprunt. Ainsi, si on fait une estimation à la hausse, nous pouvons partir du principe que le prêt initial sera à 4.50% sur 6 ans (durée peu standard et faible poussant à une baisse probable du taux). Le remboursement commencera donc à partir de 3 ans (un an et demi de R&D initial et un an et demi de revenus) et se fera donc en trois temps :

Emprunt	2,794,907€
Somme à rembourser	2,920,678€
Somme par tranche de 18 mois	973,559€

Ainsi, une fois le remboursement de ce prêt déduit, nous avons une estimation des bénéfices sur une période de 4 ans et demi après le développement initial, qui seraient d’environ 1,024,195€ tous les 18 mois. Une fois le prêt levé, les bénéfices de l’entreprise peuvent être assimilables au chiffre d’affaires hors taxes, charges et salaires.

Toutefois, cette estimation n’est que grossière et relative puisque sur un horizon de plusieurs années d’autres langues auront été développées, la base d’utilisateurs aura augmenté en proportion (par exemple avec l’enseignement et la popularisation de l’outil) et des contrats d’utilisation pourront être conclus avec des organisations gouvernementales et des outils du numérique (comme YouTube). L’utilisation du moteur de traduction sera ainsi plus conséquente et augmentera le chiffre d’affaires mais aussi les taxes qui sont progressives en France. Il faudra adapter les prix à chaque pays en fonction des lois locales ainsi que les taxes à payer (par exemple, si l’entreprise réalise un chiffre d’affaires en France, il faudra payer l’impôt sur les sociétés qui est de 25% en 2024). La masse salariale de l’entreprise va augmenter et les charges associées aussi.

Ainsi, l’estimation faite dans ce rapport du fonctionnement et des revenus concerne surtout les toutes premières années de développement et sera très variable sur le moyen et long terme.

Création d’idées

Dans le but d’obtenir des idées innovantes concernant notre projet, nous avons mis à contribution nos camarades de classes dans un brainstorming. L’idée de base d’un brainstorming est la suggestion spontanée d’idées selon sur un thème précis. Dans notre cas, nous avons animé une réunion d’une heure et demie afin de trouver des applications dans la vie courante de notre projet de traduction omnidirectionnelle des langues des signes.

Avant toutes choses, il nous faut préciser que le groupe ayant participé à notre activité était seulement composé de personnes entendantes. Ce qui signifie que ces personnes n’ont probablement pas été confrontées aux difficultés que peut rencontrer une personne sourde ou malentendantes. Il nous fallait donc trouver un moyen de faire émerger des idées innovantes sur un problème dont peu de personnes ont conscience.

Pour cela nous avons divisé notre brainstorming en deux parties, une partie ludique et le brainstorming en lui-même.

Jeux

Le but de cette première partie était de soumettre nos participants aux problèmes de communications rencontrés par des personnes signantes face à des personnes entendantes. Nous avons ainsi créé plusieurs mini-jeu que voici :

Le jeu des devinettes

Ce jeu consiste tout simplement, dans un premier temps, à demander aux participants d’essayer d’imaginer un signe correspondant au mot proposé oralement. Puis dans un second temps, nous leur avons montré des mots en LSF afin qu’ils essaient d’en trouver la signification en Français. Pour rendre cela plus amusants nous avons d’abord commencé avec des mots “simples” des mots dont leurs traductions en langue des signes viendrait de façon intuitive comme parapluie, oiseau, pêcher… puis nous leurs avons proposé des mots plus “difficiles” comme des couleurs ou des jours de la semaine.

Le jeu du téléphone arabe

Dans ce jeu là, les participants doivent se mettre en ligne les uns derrière les autres. Le but est de communiquer un mot aux autres participants de la ligne un à un sans user de la parole. Ils doivent utiliser des signes ou bien mimer pour communiquer l’information. Nous avons ainsi montré à la tête de file des mots à communiquer aux autres tout d’abord avec une image puis, pour corser le jeu, nous lui avons montré des signes à reproduire aux autres. Quant à la personne en fin de ligne, il lui a été demandé de restituer l’information transmise par le premier. Encore une fois nous avons commencé par des mots simples comme un ordinateur, cuisiner… puis nous leur avons proposé des petites phrases comme “Je vais à Paris.” ou bien “Le soleil brille.”.

Le jeu de l’entretien

Ici les candidats sont invités à se faire une fiche de présentation comprenant leur nom, prénom, age, profession, hobby et plat préféré pour finalement se mettre en binôme et se présenter à l’autre sans parler. Puis, les groupes se mélangent et les candidats devaient se présenter à nouveau et ajouter de nouveaux éléments à leur présentation.

Le but de ces mini-jeux est d’exposer les participants aux problèmes de communications entres des personnes signantes et non signantes mais aussi entre personnes signantes utilisant deux langages différents. Il était ainsi intéressant de les faire réfléchir sur la façon dont les signes peuvent être créés et partagés, et de les mettre en situation réelle pour voir que le simple fait de se présenter devient laborieux. Pour au final faciliter l’émergence d’idées nouvelles.

Brainstorming

Quant au brainstorming en lui-même, après avoir été confronté à ces problèmes il a été demandé aux participants de donner des exemples d’utilisation dans la vie courante d’un moteur de traduction de langues des signes. À l’aide de post-it, ils devaient répondre à la problématique donnée avec comme contraintes, encore une fois, le fait de ne pas communiquer oralement mais également ne pas simplement écrire ses idées et toutes les minutes, d’échanger son post-it avec un autre participant pour pouvoir ainsi partager son idée et compléter celle des autres. Puis dans un second temps il leur a été demandé de mettre en commun les meilleures idées des post-it sur un tableau, tout en conservant le silence.

Nos résultats

Au cours de cette réunion les participants ont été amenés à jouer à différents mini-jeux, leur participation volontaire nous a permis de faire émerger les différentes idées que voici :

Usage scolaire et éducatif, un outil pour l’enseignant et les élèves.
Usage télévisuel, afin de permettre l’accès à l’information, le divertissement (notamment la musique) mais aussi les communications du gouvernement…
Usage dans les hôpitaux, faciliter la communication entre le patient et le médecin.
Usage dans les lieux publics, afin de simplement passer une commande en magasin, sociabiliser, déposer une plainte, éviter les dangers…
Usage lors d’un événement, que ce soit du théâtre, un concert ou autre.
Conception de lunettes ou casques en réalité augmentée pour la traduction directe.

Conclusion

Nous constatons qu’environ 72 millions de personnes dans le monde utilisent principalement une langue des signes pour communiquer. De plus, des études de l’OMS montrent que 430 millions de personnes souffrent de pertes d’audition pouvant être incapacitante ce qui les conduit à adopter un autre moyen de communication. En prenant cela en compte, il en résulte une problématique concernant les difficultés de communication entre les communautés signantes et non signantes. D’où l’intérêt de la création d’un moteur de traduction omnidirectionnelle entre ces différentes communautés. Cela permettrait une meilleure intégration des personnes sourdes ou malentendantes dans la société grâce à un usage scolaire, télévisuel mais aussi dans un cadre public et pourquoi pas ludique.

Pour mettre en place ce moteur de traduction, il est nécessaire de capter précisément le mouvement ainsi que de l’interpréter par intelligence artificielle, grâce à la mise en place de bases de données spécifiques. A terme, il sera possible de traduire en filmant directement depuis son téléphone portable. Couplé à un système de basculement efficace, il sera possible de traduire aisément une langue signée.

Ce projet de moteur de traduction omnidirectionnelle pourrait être mis en avant grâce à des partenaires tels que Youtube, Netflix, X (anciennement Twitter)… qui ont le moyen de toucher un très large public ou bien tout simplement grâce à des spots publicitaires diffusés à la télévision. Il serait également envisageable que le moteur de traduction soit directement proposé par des services publics comme les hôpitaux, les mairies ou autres.

Jouer sur la corde de l’innovation mettra également ce projet en avant puisqu’il prendra en compte les particularités linguistiques de chaque communauté sans faire une simple transposition mot à mot. La langue des signes indienne (LSI) étant la plus parlée, le projet proposera à son lancement seulement celle-ci. Afin de le rentabiliser, le moteur de traduction sera proposé gratuitement, avec quelques publicités non intrusives aux particuliers, mais aussi avec la possibilité d’un abonnement mensuel dans le cadre d’une utilisation professionnelle, notamment chez les différents services publics aidant à l’intégration des personnes malentendantes. Par la suite, l’ajout de nouvelles langues permettra l’augmentation de l’utilisation du moteur de traduction ainsi qu’une popularisation de son usage dans la société.

Ainsi, avec ce projet, nous espérons faciliter les échanges entre communautés afin d’éviter l’isolement et les discriminations que le manque de communication peut engendrer sur les communautés malentendantes, et de favoriser leur intégration, d’où le côté humaniste. De plus, nous créons un moteur de traduction de langue des signes grâce à une implantation de l’intelligence artificielle et un traitement du langage signé efficace; ce moteur concentre aussi la diversité des langues, la simplicité et les directions de traduction, d’où le côté innovant. Enfin, nous avons vu des moyens de populariser ce projet et de monter une société au chiffre d’affaires conséquent, d’où le côté entrepreneurial.

CMI 2I2A

Informatique & intelligence Artificielle d'Avignon

Archives de
Tag: Groupe