{"id":728,"date":"2021-11-28T15:19:42","date_gmt":"2021-11-28T14:19:42","guid":{"rendered":"https:\/\/cmi-2i2a.univ-avignon.fr\/?p=728"},"modified":"2021-11-28T16:57:04","modified_gmt":"2021-11-28T15:57:04","slug":"reconnaissance-du-locuteur-etat-de-lart","status":"publish","type":"post","link":"https:\/\/cmi-2i2a.univ-avignon.fr\/index.php\/2021\/11\/28\/reconnaissance-du-locuteur-etat-de-lart\/","title":{"rendered":"Reconnaissance du locuteur : Etat de l\u2019art"},"content":{"rendered":"\n<h2 class=\"wp-block-heading\">I-  Le signal de parole&nbsp;<\/h2>\n\n\n\n<p>D&rsquo;apr\u00e8s Fourier,  un signal est la somme des cosinus et des sinus. En effet, tout en d\u00e9composant un signal periodique, les sinus et les cosinus qui le composent vont signaler une fr\u00e9quence pr\u00e9cise, caract\u00e9ristique d&rsquo;un son. <\/p>\n\n\n\n<p>Ceci montre qu&rsquo;il y a de nombreuses fr\u00e9quences diff\u00e9rentes caract\u00e9risant le son de divers objets. \u00c0 titre d&rsquo;exemple, la fr\u00e9quence d\u2019\u00e9chantillonnages&nbsp;: large bande 16000 valeurs par seconde (permet de garder une bonne qualit\u00e9, quelques centaines de hertz \u00e0 8 kHz), le t\u00e9l\u00e9phone&nbsp;(bande \u00e9troite) 8000 valeurs par seconde etc.<\/p>\n\n\n\n<p><em>Nota bene<\/em>: un  signal d&rsquo;une seule  seconde correspond \u00e0 1600 valeurs.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">II- Le spectrogramme et la param\u00e9trisation acoustique<\/h2>\n\n\n\n<ol class=\"wp-block-list\"><li><strong> Le spectrogramme:<\/strong><\/li><\/ol>\n\n\n\n<div class=\"wp-block-image\"><figure class=\"alignright size-full is-resized\"><img loading=\"lazy\" decoding=\"async\" src=\"https:\/\/cmi-2i2a.univ-avignon.fr\/wp-content\/uploads\/2021\/11\/Representation-temporelle-et-spectrogramme-temps-frequence-associes-a-un-son-de-piano.jpg\" alt=\"\" class=\"wp-image-731\" width=\"500\" height=\"250\" \/><figcaption>Exemple d&rsquo;une partie d&rsquo;un spectrogramme ( tirer de : https:\/\/www.researchgate.net)<\/figcaption><\/figure><\/div>\n\n\n\n<p>Le spectrogramme est une repr\u00e9sentation&nbsp; qui montre la variation du signal en fonction de temps&nbsp;: ce qui se passe c\u2019est quelque chose de reconnaissable qui correspond \u00e0 une r\u00e9alit\u00e9 statistique.<\/p>\n\n\n\n<p>La repr\u00e9sentation est divis\u00e9e en plusieurs parties, normalement au bout de chaque signal ( 10 ms) et  les amplitudes de fr\u00e9quences -qui  permettent la caract\u00e9risation de son (ils se diff\u00e8rent en chaque point) -qui le composent seront analys\u00e9es .&nbsp; <\/p>\n\n\n\n<p>2.<strong>  La param\u00e9trisation acoustique:<\/strong><\/p>\n\n\n\n<p>&nbsp;Toutes les 10 ms on extrait le spectre du spectrogramme , assez court (pas de co\u00efncidence entre deux secondes) mais assez long pour qu\u2019il y ai de l\u2019information.<\/p>\n\n\n\n<p>Une transform\u00e9e de Fourrier (passage de temps vers les fr\u00e9quences) aura lieu avant l&rsquo;utilisation d&rsquo;une \u00e9chelle de barque.<\/p>\n\n\n\n<p>Actuellement, un syst\u00e8me end-to-end est adopt\u00e9&nbsp;: Il utilise directement le signal de parole.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">III- La reconnaissance du locuteur <\/h2>\n\n\n\n<p>Dans le but d&rsquo;identifier l&rsquo;identit\u00e9 d&rsquo;un locuteur, une signature de base est utilis\u00e9e. Par la suite, il y aura une comparaison avec un autre locuteur, selon les deux signatures, et une d\u00e9cision est prise (rejeter ou accepter, selon une distance de similarit\u00e9, sup\u00e9rieur ou inf\u00e9rieur \u00e0 un seuil).<\/p>\n\n\n\n<p><em>Aper\u00e7u historique:<\/em> Jusqu\u2019aux ann\u00e9es 2000, il y avait des syst\u00e8mes statistiques insuffisant.&nbsp; Il y avait uniquement une approche avec un vecteur de taille variable. L&rsquo;id\u00e9e r\u00e9volutionnaire \u00e9tait de transformer  le signal de vecteur en taille variable en un vecteur de taille fixe. Ainsi, dans le but d&rsquo;identifier le locuteur, un calcul de la distance s\u00e9parant les deux vecteurs.<\/p>\n\n\n\n<p>Depuis 2010, les r\u00e9seaux de neurones prennent les vecteurs et les mettent dans une multitude de couche (convolutions<sup>1<\/sup> munie d\u2019un r\u00e9siduelle permettant d\u2019augmenter le nombre de param\u00e8tre tout en apprenant)\u00a0; il arrive \u00e0 une couche de vecteur fixe repr\u00e9sentant le locuteur. Il y a un passage par un classifieur l\u00e0 o\u00f9 il passe le vecteur fixe. Les lost functions maximises les bonnes probabilit\u00e9s et diminuent les mauvaises probabilit\u00e9s sur chaque session ainsi que sur la somme.<\/p>\n\n\n\n<p>Apres ces \u00e9tapes, un calcul de distance entre les deux vecteurs fixes&nbsp;permet de comparer les similarit\u00e9s: si les similarit\u00e9s sont grandes alors c\u2019est le m\u00eame locuteur, sinon ce n\u2019est pas le m\u00eame .<\/p>\n\n\n\n<div class=\"wp-block-group\"><div class=\"wp-block-group__inner-container is-layout-flow wp-block-group-is-layout-flow\">\n<blockquote class=\"wp-block-quote is-layout-flow wp-block-quote-is-layout-flow\"><p>1- Convolution&nbsp;: on prend un filtre et on calcul chaque r\u00e9seau et puis on se d\u00e9place, ainsi de suite. Maintenant, on prend de chaque case un r\u00e9sum\u00e9\/ minimum\u2026&nbsp; Chaque filtre passe \u00e0 chercher une diff\u00e9rente caract\u00e9ristique.&nbsp; L&rsquo;initialisation est  al\u00e9atoire et chaque it\u00e9ration fait une t\u00e2che diff\u00e9rente. Il y a un pulling &nbsp;\u00e0 la fin.<\/p><\/blockquote>\n\n\n\n<p><\/p>\n<\/div><\/div>\n\n\n\n<p>Article \u00e9crit par Kinda CHAMMA, suite \u00e0 une conf\u00e9rence avec un enseignant-chercheur du CERI, Driss MATROUF.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>I- Le signal de parole&nbsp; D&rsquo;apr\u00e8s Fourier, un signal est la somme des cosinus et des sinus. En effet, tout en d\u00e9composant un signal periodique, les sinus et les cosinus qui le composent vont signaler une fr\u00e9quence pr\u00e9cise, caract\u00e9ristique d&rsquo;un son. Ceci montre qu&rsquo;il y a de nombreuses fr\u00e9quences diff\u00e9rentes caract\u00e9risant le son de divers objets. \u00c0 titre d&rsquo;exemple, la fr\u00e9quence d\u2019\u00e9chantillonnages&nbsp;: large bande 16000 valeurs par seconde (permet de garder une bonne qualit\u00e9, quelques centaines de hertz \u00e0 8&#8230;<\/p>\n<p class=\"read-more\"><a class=\"btn btn-default\" href=\"https:\/\/cmi-2i2a.univ-avignon.fr\/index.php\/2021\/11\/28\/reconnaissance-du-locuteur-etat-de-lart\/\">Lire la suite<span class=\"screen-reader-text\"> Lire la suite<\/span><\/a><\/p>\n","protected":false},"author":32,"featured_media":0,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[9],"tags":[],"coauthors":[],"class_list":["post-728","post","type-post","status-publish","format-standard","hentry","category-conference-decouverte"],"_links":{"self":[{"href":"https:\/\/cmi-2i2a.univ-avignon.fr\/index.php\/wp-json\/wp\/v2\/posts\/728","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/cmi-2i2a.univ-avignon.fr\/index.php\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/cmi-2i2a.univ-avignon.fr\/index.php\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/cmi-2i2a.univ-avignon.fr\/index.php\/wp-json\/wp\/v2\/users\/32"}],"replies":[{"embeddable":true,"href":"https:\/\/cmi-2i2a.univ-avignon.fr\/index.php\/wp-json\/wp\/v2\/comments?post=728"}],"version-history":[{"count":5,"href":"https:\/\/cmi-2i2a.univ-avignon.fr\/index.php\/wp-json\/wp\/v2\/posts\/728\/revisions"}],"predecessor-version":[{"id":742,"href":"https:\/\/cmi-2i2a.univ-avignon.fr\/index.php\/wp-json\/wp\/v2\/posts\/728\/revisions\/742"}],"wp:attachment":[{"href":"https:\/\/cmi-2i2a.univ-avignon.fr\/index.php\/wp-json\/wp\/v2\/media?parent=728"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/cmi-2i2a.univ-avignon.fr\/index.php\/wp-json\/wp\/v2\/categories?post=728"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/cmi-2i2a.univ-avignon.fr\/index.php\/wp-json\/wp\/v2\/tags?post=728"},{"taxonomy":"author","embeddable":true,"href":"https:\/\/cmi-2i2a.univ-avignon.fr\/index.php\/wp-json\/wp\/v2\/coauthors?post=728"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}