Des chercheurs de l'Université d'Oxford et de DeepMind (Google) ont développé une intelligence artificielle capable de convertir les mouvements des lèvres en texte.
Le programme, nommé LipNet, lit les mouvements des lèvres avec une exactitude de 47 % des mots comparativement à 12 % pour un professionnel. Pour une grande part, il s'agit d'erreurs bénignes.
Joon Son Chung et ses collègues ont utilisé une technique dite d'apprentissage profond dans laquelle le système a analysé 5000 heures de vidéo de programmes TV de la BBC et le texte correspondant pour déduire, généraliser et ajuster les règles de conversion.
Le programme travaille au niveau des phrases plutôt qu'au niveau des mots comme le font des logiciels précédents, ce qui permet le recours à des informations sémantiques pour améliorer la performance.
Récemment, Microsoft a annoncé que la reconnaissance vocale de son intelligence artificielle était aussi performante que l'humain.
Psychomédia avec source : New Scientist.
Tous droits réservés