HIGH-TECH

L'intelligence artificielle parvient à lire sur les lèvres

Sciences et AvenirArnaud Devillard
Les archives de la BBC offrent des exemples des mouvements des lèvres produits par divers locuteurs pour prononcer un mot donné (ici « afternoon »).
GOOGLE/OXFORD UNIVERSITY
De nouveaux algorithmes ont obtenu de meilleurs résultats que les humains pour décrypter les mouvements des lèvres. Le secret de leur réussite : un apprentissage fondé sur le visionnage de milliers de vidéos.
C'est après avoir lu sur leurs lèvres une conversation entre deux membres de l'équipage que Hal, l'ordinateur du vaisseau de 2001 : l'Odyssée de l'espace va se rebeller contre l'intelligence humaine. Le scénario de ce film de science-fiction, imaginé dans les années 1960, pourrait un jour devenir réalité car, désormais, l'intelligence artificielle excelle dans la lecture sur les lèvres. Pour preuve : à deux semaines d'intervalle en novembre dernier, deux équipes constituées de chercheurs de l'université d'Oxford (RoyaumeUni) et de la société DeepMind (filiale de Google) ont dévoilé les performances d'un algorithme doté de cette aptitude réservée jusqu'alors aux humains.
Toutes deux ont utilisé la méthode très efficace, et désormais en vogue, des « réseaux convolutifs », une déclinaison de l'apprentissage automatique. Et dans les deux cas, les capacités humaines ont été surpassées ! Ainsi, la première équipe a atteint un taux de réussite de 93,4 % lors de tests avec un logiciel nommé LipNet (52,3 % pour les hommes). Alors quela seconde affichait des performances de seulement 46,3 %. Trop peu ? Il ne faut pas se fier aux apparences, car l'algorithme le plus impressionnant est bien ce dernier, qui utilise une base de données différente pour l'entraînement.
Pour comprendre, il faut savoir que celui-ci consiste à soumettre au logiciel des vidéos de personnes en train de parler. D'abord avec le son, pour qu'il apprenne à associer tel mot ou phonème à tel mouvement des lèvres. Puis avec des vidéos muettes : en fonction de ce qu'il a vu et entendu précédemment, le logiciel fait des suggestions, qui sont validées ou non. Les chercheurs lui indiquent où il a commis une erreur, ils relancent la procédure... et ainsi de suite jusqu'au stade où il ne progresse plus. Après quoi, ils lui présentent une série de vidéos muettes inédites et notent les résultats obtenus.
PHONÉTIQUE
Le piège des « visèmes »
Il arrive que des phonèmes différents soient produits par des mouvements labiaux très proches. C'est le cas de m/b/p, de f/v, de d/t, de i/j, de u/o ou encore de k/gu -- le nombre de cas dépend des personnes. On appelle cela des « visèmes » (contraction des termes anglais visual et phoneme). En français, on compte 36 phonèmes différents pour une quinzaine de mouvements de lèvres... Ce qui pose de sérieux problèmes pour la lecture labiale, surtout pour un logiciel qui ne peut s'aider du contexte. Des chercheurs en informatique de l'université britannique d'East Anglia travaillent spécifiquement sur ce sujet et ont mis au point un modèle d'analyse d'image capable de différencier les visèmes, après avoir établi qu'une résolution minimale de deux pixels par lèvres était nécessaire. En travaillant sur deux cents phrases prononcées par douze locuteurs, ils ont atteint un taux de réussite de 25 %. De quoi alimenter les futurs algorithmes de lecture sur les lèvres.
Une base de données critiquée car trop limitée
Pour LipNet, les chercheurs ont utilisé une base de données appelée Grid, dédiée à la recherche. Il s'agit d'extraits vidéo de trois secondes où 34 personnes prononcent chacune un millier de phrases dépourvues de sens. Celles-ci ne sont que des suites de mots (51 au total) conçues sur le même modèle et toujours dans le même ordre : un verbe à l'impératif, une couleur, une préposition, une lettre, un chiffre (de 1 à 10) et un adverbe. Elles sont prononcées face caméra, avec la bouche du locuteur bien éclairée. Une partie de ce corpus a servi à l'entraînement de l'algorithme, une autre a été réservée à l'évaluation des performances. Par ailleurs, trois malentendants formés à la lecture sur les lèvres ont visionné dix minutes de vidéos ayant servi à entraîner LipNet. Puis leurs performances ont à leur tour été testées. Résultat : le taux d'erreurs moyen a été de 47,7 % quand celui de LipNet ne dépassait pas 6,6 %. Implacable. Vraiment ? Ces résultats ont en effet été assez vite critiqués dans la communauté scientifique. Neil Lawrence, professeur en apprentissage automatique à l'université de Sheffield (Royaume-Uni), comme le chercheur canadien en intelligence artificielle Alan Mackwork ont ainsi pointé du doigt la base de données Grid. Selon eux, son contenu limité et très formaté aurait facilité la tâche de LipNet. Un étudiant chercheur d'Oxford, Adam McCarthy, a demandé aux créateurs de l'algorithme pourquoi ils ne s'étaient pas plutôt servis des dizaines de milliers de vidéos disponibles sur YouTube. Réponse : ce matériau contenait trop de « bruit », c'està-dire de données parasites qu'il aurait fallu nettoyer pour le préparer à des fins de recherche.
Exemples de phrases décrytées avec le logiciel LipNet sur des séquences vidéo.
OXFORD UNIVERSITY
4960 heures d'émissions de la BBC mises à contribution
Or, c'est justement ce qu'a fait la seconde équipe ! Ces chercheurs ont établi une base de données à partir de 4960 heures d'émissions de la BBC ­ donc « bruitées » ­ dont ils ont extrait 118 116 phrases exploitables (les lèvres visibles à l'image) prononcées par une centaine de locuteurs. Soit des situations bien moins artificielles que dans Grid et à la qualité plus hétérogène (éclairage, angle de vue, diction). Là encore, les performances du logiciel ont été comparées à celle d'un humain, en l'occurrence un professionnel de la lecture labiale. Celui-ci n'a su retranscrire les paroles que dans 12,4 % des extraits qui lui ont été soumis. Alors que le logiciel a atteint 46,3 %.
Si ces technologies surpassent déjà l'humain, elles n'en sont qu'à leurs débuts. Il faudra du temps pour qu'elles puissent servir à espionner ou à la vidéosurveillance. Mais les scientifiques envisagent d'ores et déjà des usages pour les malentendants. Ou la transformation d'assistants vocaux, comme Cortana (Microsoft) ou Siri (Apple), en aides silencieux déchiffrant les ordres sur les lèvres pour ne pas déranger l'entourage.
LireLactu
Parcourir
Rechercher

Sources
Challenges
Courrier international
EL PAÍS
L'Humanité
La Croix
La Vanguardia
Le Figaro
Le Monde
Le Parisien
Les Echos
Libération
NY Daily News
Sciences et Avenir