Archives de
Category: Recherche

Reconnaissance du locuteur : Etat de l’art

Reconnaissance du locuteur : Etat de l’art

I- Le signal de parole 

D’après Fourier, un signal est la somme des cosinus et des sinus. En effet, tout en décomposant un signal periodique, les sinus et les cosinus qui le composent vont signaler une fréquence précise, caractéristique d’un son.

Ceci montre qu’il y a de nombreuses fréquences différentes caractérisant le son de divers objets. À titre d’exemple, la fréquence d’échantillonnages : large bande 16000 valeurs par seconde (permet de garder une bonne qualité, quelques centaines de hertz à 8 kHz), le téléphone (bande étroite) 8000 valeurs par seconde etc.

Nota bene: un signal d’une seule seconde correspond à 1600 valeurs.

II- Le spectrogramme et la paramétrisation acoustique

  1. Le spectrogramme:
Exemple d’une partie d’un spectrogramme ( tirer de : https://www.researchgate.net)

Le spectrogramme est une représentation  qui montre la variation du signal en fonction de temps : ce qui se passe c’est quelque chose de reconnaissable qui correspond à une réalité statistique.

La représentation est divisée en plusieurs parties, normalement au bout de chaque signal ( 10 ms) et les amplitudes de fréquences -qui permettent la caractérisation de son (ils se diffèrent en chaque point) -qui le composent seront analysées . 

2. La paramétrisation acoustique:

 Toutes les 10 ms on extrait le spectre du spectrogramme , assez court (pas de coïncidence entre deux secondes) mais assez long pour qu’il y ai de l’information.

Une transformée de Fourrier (passage de temps vers les fréquences) aura lieu avant l’utilisation d’une échelle de barque.

Actuellement, un système end-to-end est adopté : Il utilise directement le signal de parole.

III- La reconnaissance du locuteur

Dans le but d’identifier l’identité d’un locuteur, une signature de base est utilisée. Par la suite, il y aura une comparaison avec un autre locuteur, selon les deux signatures, et une décision est prise (rejeter ou accepter, selon une distance de similarité, supérieur ou inférieur à un seuil).

Aperçu historique: Jusqu’aux années 2000, il y avait des systèmes statistiques insuffisant.  Il y avait uniquement une approche avec un vecteur de taille variable. L’idée révolutionnaire était de transformer le signal de vecteur en taille variable en un vecteur de taille fixe. Ainsi, dans le but d’identifier le locuteur, un calcul de la distance séparant les deux vecteurs.

Depuis 2010, les réseaux de neurones prennent les vecteurs et les mettent dans une multitude de couche (convolutions1 munie d’un résiduelle permettant d’augmenter le nombre de paramètre tout en apprenant) ; il arrive à une couche de vecteur fixe représentant le locuteur. Il y a un passage par un classifieur là où il passe le vecteur fixe. Les lost functions maximises les bonnes probabilités et diminuent les mauvaises probabilités sur chaque session ainsi que sur la somme.

Apres ces étapes, un calcul de distance entre les deux vecteurs fixes permet de comparer les similarités: si les similarités sont grandes alors c’est le même locuteur, sinon ce n’est pas le même .

1- Convolution : on prend un filtre et on calcul chaque réseau et puis on se déplace, ainsi de suite. Maintenant, on prend de chaque case un résumé/ minimum…  Chaque filtre passe à chercher une différente caractéristique.  L’initialisation est aléatoire et chaque itération fait une tâche différente. Il y a un pulling  à la fin.

Article écrit par Kinda CHAMMA, suite à une conférence avec un enseignant-chercheur du CERI, Driss MATROUF.

Objets connectés. Du rêve à la réalité…

Objets connectés. Du rêve à la réalité…

Le terme « Objet connecté » est apparu pendant les années 90 pour désigner des objets du quotidien comme une montre, un vêtement, un meuble, une fenêtre ou tout objet n’étant pas un périphérique informatique ou une interface WEB, mais qui peuvent quand même échanger des données digitales de petites tailles. Ils sont reliés à des capteurs qui récupèrent diverses informations et des actionneurs qui s’activent ou se désactivent selon les données reçues.

Le premier calculateur informatique, E.N.I.A.C., a été construit en 1945 et couvrait 167m², pour faire 100 000 opérations à la seconde. À peine plus que le premier microprocesseur commercialisé en 1971, le Intel 4004 avec ses 92 600 opérations à la seconde. Ce dernier pesait moins de 10 grammes et mesurait 12mm². Grâce à la miniaturisation des composants électroniques, et plus particulièrement des transistors, des composants fondamentaux gravés sur les plaques des circuits électroniques, on a pu construire des circuits de plus en plus complexes – et efficaces – sur des surfaces de taille similaire avec le temps.
En particulier la Loi de Moore, qui n’est pas plus une loi qu’un postulat, nous dit que tous les deux ans nous serons capables de graver le double de transistors sur la même surface. Ce postulat a jusqu’ici été particulièrement précis.

Conçus pour nous simplifier la vie, les objets connectés sont – comme leur nom l’indique – connectés ensemble dans des réseaux qu’on appelle Internet des Objets qui regroupent vos objets connectés entre et votre ordinateur ou téléphone entre eux. Par le biais de l’internet des objets, les objets connectés vous communiquent des informations, comme l’Apple Watch qui peut mesurer la fréquence cardiaque de son porteur ou détecter les chutes et faire des appels d’urgence.

Cependant les objets connectés font face à des problèmes importants : Il faut pouvoir faire le tri entre les informations pertinentes et les informations indésirables afin d’éviter l’infobésité, c’est-à-dire l’excès d’information au point où on ne distingue plus les informations importantes dans la masse.
Il faut aussi trouver un moyen de protéger les données sensibles les objets connectés, car ces derniers ne sont actuellement pas sécurisés.

Pour résoudre ces problèmes on pourrait ajouter des algorithmes pour sécuriser la connexion, trier les informations ect… mais ces solutions ont des limites. Pour pouvoir ranger ces algorithmes dans les circuits électroniques de l’objet connecté, il faudrait plus de transistors dans les circuits électroniques des objets connectés. Selon la Loi de Moore on saura créer des transistors plus petits sur les circuits électroniques, il suffit de donner le temps et les ressources necéssaires à ces innovations pour se développer.

Conférence de Ph. Gozlan de l’université d’Avignon, le 09/11/2021

TALN : Traitement Automatique de la Langue Naturelle

TALN : Traitement Automatique de la Langue Naturelle

Le traitement automatique de langue et l’information textuelle est un domaine multidisciplinaire impliquant la linguistique, l’informatique ainsi que l’intelligence artificielle, et vise à créer des outils de traitement de langue naturelle pour diverses applications.

Dans la visée de « résumé » les textes, la compression de phrase permet d’éliminer les constituants non essentiels à la compréhension de la phrase. Cet acte permet de participer à résoudre de grand problème a l’échelle mondial, notamment avec l’augmentation de nombre des pages web indexées de 10 milliards en 2008 à 43 milliards en 2013.

De nombreuses difficultés sont présentes : le nombre de langues des documents, la classification des documents par sujet, le regroupement des documents, l’extraction d’informations jusqu’à finalement le résumé automatique.

Pour ce dernier, on fait en sorte que les algorithmes seront capables de traiter toutes les langues de la même façon. Pour cela, on s’ appui sur les statistiques plutôt que la linguistique.

L’un des personnages historique du résumer de textes est Joseph Joubert (1754-1824) qui  « est un homme tourmenté par la maudite ambition de mettre tout un livre dans une page, toute une page dans une phrase, et tout une phrase dans un mot. » (Citation de Joubert lui même).

Article écrit suite à une conférence avec l’enseignant-chercheur du CERI : Juan-Manuel TORRES

Planning des conférences recherche L1 CMI 2021/2022

Planning des conférences recherche L1 CMI 2021/2022

Datehoraire et lieuconférenciersujet
lundi 13 septembre 202113h salle S1 nodesT. SprietPrésentation CMI , UE projet intégrateur
vendredi 17 septembre 202113h salle S1 nodesS HuetDécrypter une langue étrangère : de la pierre de Rosette aux réseaux de neurones
lundi 20 septembre 202111h Centre ville 1w19P. JourlinLa boite translucide
jeudi 23 septembre 202113h salle S1 nodesItshak LapidotMy research in speech technologies
lundi 27 septembre 202113h salle S1 nodesJF BonastrePeut-on identifier une personne par sa voix ? Que dit votre voix de vous ?
mercredi 29 septembre 202113h salle S1 nodesC. FredouilleQuand la parole est « malade » … Traitement automatique et troubles de la voix et de la parole
lundi 4 octobre 202113h salle S1 nodesR. ElazouziData center Scheduling : MapReduce
mardi 5 octobre 202113h salle S1 nodesJM TorresComment dire la même chose en moins de mots? Résumé automatique de documents
lundi 11 octobre 202113h salle S1 nodesJF Bonastreexplicabilité en IA
mercredi 13 octobre 202113h salle S1 nodesN. CecillonDétecter du contenu abusif en ligne
lundi 18 octobre 202113h Centre ville 1w19Th. SprietCréativité & Barrières personnelles
mercredi 20 octobre 202113h salle S1 nodesM VernetQuel est le rapport entre Waze et Kevin Bacon ?
lundi 25 octobre 202113h Centre ville 1w19Cyrille Genre-Grandpierre & Aurélia Bernardcomment l’IA peut changer les structures spatiales du territoire (où sont les choses et les gens) et les interactions spatiales
mardi 26 octobre 202113h salle S1 nodesB. JabaianMon assistant vocal et moi : on se comprend mais pas toujours !
mercredi 27 octobre 202113h salle S1 nodesM. HaddadMobilité intelligente
lundi 8 novembre 202113h salle S1 nodesTh. SprietIntelligence collective
mardi 9 novembre 202111h30 salle S1 nodesPh.GozlanObjets connectés. Du rêve à la réalité…
lundi 15 novembre 202113h salle S1 nodesS. HuetVoiture autonome : rouler sans permis et sans risques
lundi 22 novembre 202113h salle S1 nodesD. MatroufReconnaissance de la parole, encore ?
mardi 23 novembre 202113h salle S1 nodesTh. SprietGestion de projet
mercredi 24 novembre 202113h salle S1 nodesTh. SprietAnimer un remue-méninges
lundi 29 novembre 202111h30 Centre ville 1w19P JOURLINÉthique et IA
mercredi 1 décembre 202113h salle S1 nodesTh. SprietRecherche et développement
Planning des conférences recherche CMI 1 2020-21

Planning des conférences recherche CMI 1 2020-21

dateConférenciertitre
mer. 7 oct. 20Juan Manuel TorresRésumé automatique de documents: un pas vers l’abstraction automatisée
jeu. 8 oct. 20Thierry SprietLa recherche au CMI
ven. 9 oct. 20Jean François BonastreLa voix comme clé d’identification
mar. 13 oct. 20Philippe GozlanInterface réel et numérique
ven. 16 oct. 20Stéphane Huettraduction automatique
mar. 20 oct. 20Pierre JourlinÉthique de l’innovation
jeu. 22 oct. 20Majed HaddadMobilité intelligente
mer. 4 nov. 20Pierre JourlinExplicabilité en IA
jeu. 5 nov. 20Corinne FredouilleQuand la parole est « malade »
ven. 6 nov. 20Yannick EstèveL’IA dans la joie

Conférences recherches CMI 1 2019-20

Conférences recherches CMI 1 2019-20

DateConférencierTitre
18 septembreStéphane Huettraduction automatique
20 septembrePierre JourlinTALN anonymisation des décisions de justice
25 septembreMajed HaddadMobilité intelligente
27 septembrePhilippe GozlanInterfaces du réel au numérique
2 octobreJuan Manuel TorresRésumé automatique de documents
4 octobreBassamInteractions vocales homme machine
9 octobreRosaRecherche opérationnelle
16 octobreRachid ElazouziRéseaux connexe
18 octobreThierry SprietLearning Analytics
23 octobreJean François BonastreExplicabilité en IA
25 octobreCorinne FredouilleLa voix comme aide au diagnostic