Skip to content. | Skip to navigation

Emergences

Lettre d'information n° 22

Image emergences pour impression
Personal tools
You are here: Home 2012 Lettre d'information n° 22 Des mouvements de lèvres fidèles pour les avatars
Document Actions

Des mouvements de lèvres fidèles pour les avatars

Porté par Technicolor, le projet Rev-TV explore des modalités d'interaction innovantes pour les jeux télévisés de demain. Des chercheurs de l'équipe Metiss y contribuent en animant les lèvres et les expressions faciales des avatars chargés de représenter les joueurs à l'écran.

Porté par Technicolor, le projet Rev-TV explore des modalités d'interaction innovantes pour les jeux télévisés de demain. Des chercheurs de l'équipe Metiss y contribuent en animant les lèvres et les expressions faciales des avatars chargés de représenter les joueurs à l'écran.          

"Rev-TV vise la prochaine génération de jeux télévisés, résume Frédéric Bimbot, responsable de Metiss, une équipe de recherche rennaise spécialisée dans l'étude des signaux sonores (1). L'initiative de ce projet revient à Technicolor. L'entreprise souhaite valider de nouveaux concepts pour le divertissement audiovisuel interactif. Les joueurs pourront participer de chez eux, en réalité virtuelle, par l'intermédiaire d'avatars incrustés à l'écran. L'objectif est d'effectuer une démonstration de faisabilité pour un projet polymorphe qui agrège de nombreuses modalités d'interaction : reconnaissance vidéo, interfaces haptiques, analyse audio...  Il faut gérer à la fois les contraintes de cette multimodalité et celles du temps-réel. La vraie difficulté réside dans l'intégration cohérente et intelligente des différentes technologies impliquées. Parfois, certaines solutions fonctionnent bien isolément mais s'articulent mal avec d'autres.”Un travail de couture alors ? “Non. Bien plus que cela. Car il faut aussi choisir les bonnes technologies. En outre, il existe des problèmes non résolus auxquels nous tentons d'apporter une solution en améliorant des techniques existantes et en les comparant avec d'autres plus innovantes. Le but est également d'acquérir une culture commune entre les huit partenaires que nous sommes.

 Prédire la forme de la bouche

 Metiss est l'une des deux équipes Inria associées au projet (2). Elle intervient sur le maillon de la parole. “Le téléspectateur participe de chez lui. Il est représenté dans le jeu par son avatar. Quand le joueur parle, le personnage incrusté à l'écran doit produire les mouvements de lèvres correspondants,”  explique Guylaine Le Jan, ingénieur de recherche. “Nous essayons de prédire directement la forme de la bouche à partir des propriétés du son sans passer par une représentation linguistique intermédiaire, ajoute Frédéric Bimbot. Les contraintes du temps-réel imposent cette méthode. On ne peut pas se permettre d'aligner les lèvres de l'avatar 3 secondes après que la personne ait parlé. Le décalage serait inacceptable. Le traitement doit rester immédiat.” Temps de réponse ici : “dans les 200 millisecondes.”

Pour mener ces expériences, “nous avons filmé les lèvres de 16 personnes prononçant 250 phrases, témoigne Grégoire Bachman, ingénieur de recherche. Nous avons ainsi constitué une base de données où des positions de la bouche correspondent à des phonèmes. Nous mettrons d'ailleurs cette base à la disposition des chercheurs qui voudraient la réutiliser.

 Réseau de neurones

Différentes techniques algorithmiques permettent ensuite d'identifier un phonème et de lui attribuer une position de lèvres plausible. “Nous avons testé et évalué des méthodes conventionnelles dérivées de la reconnaissance de parole à base de modèles de Markov cachés, explique Frédéric Bimbot.  Mais nous nous intéressons surtout aux réseaux de neurones. C'est un modèle de calcul bien adapté aux contraintes de l'application. On apprend automatiquement les correspondances entre la parole émise et le mouvement des lèvres à partir des propriétés implicites du son.

Ces correspondances dûment établies, plusieurs façons permettent ensuite d'animer les lèvres. “Nous souhaitons comparer deux technologies d'animation labiale pour déterminer quel algorithme apporte le rendu visuel le plus représentatif des visèmes (2). Nous allons lancer une batterie de tests et demander à un panel de personnes d'évaluer la qualité de ce rendu, explique Nathan Souviraa, ingénieur de recherche. Nous conserverons la meilleure des deux méthodes pour générer ensuite des mouvements de bouche avec cette fois-ci simplement deux coordonnées : une verticale et une horizontale. Rien d'autre.  Il s'agira alors, à nouveau, d'évaluer la performance de cette représentation simplifiée.

 Reconnaissance de mots 

Un deuxième axe de recherche concerne la reconnaissance de mots, poursuit Frédéric Bimbot. Dans les scénarios de jeux, cela va permettre de donner des réponses de façon plus naturelle aux questionnaires à choix multiples. Nous cherchons un mot parmi un choix cerné de réponses possibles. Il s'agit ici d'un vocabulaire borné, constitué de quelques mots. Pour cela, nous utilisons des index.

Sur ce segment, “il ne s'agit pas d'un travail d'innovation de notre part mais d'intégration, précise Guylaine Le Jan. Nous nous appuyons en particulier sur les travaux antérieurs de Guillaume Gravier.

Dans une étape ultime, les chercheurs voudraient détecter les émotions du locuteur pour les restituer sur le visage de l'avatar. “C'est la partie la plus difficile, prévient Frédéric Bimbot. Là encore, une des méthodes repose sur un réseau de neurones qui va tenter d'apprendre implicitement des correspondances entre des caractéristiques faciales et des états émotionnels.” Mais où aller chercher ces paramètres vocaux qui révèlent les émotions du joueur ? Comment détecter bonheur ou dépit dans une voix ? Comment déceler fulmination ou abattement ? Par le volume sonore ? L'intonation ? La respiration ? Le débit ? Voire un staccato d'onomatopées ? “Pas si évident de déterminer l'expression d'un état émotionnel, grimace le chercheur. Nous ne savons pas forcément bien modéliser le problème que nous voulons résoudre. Nous nous heurtons à un problème de formulation.  La science aussi a ses avatars...

 Notes:

(1) Metiss est une équipe  Inria, Université Rennes 1, CNRS, Institut de recherche en informatique et systèmes aléatoires (Irisa) (UMR6074).

(2) L'autre équipe est Lagadic qui travaille sur l'asservissement visuel. Rev-TV (Réalité Virtuelle et Télévision) est un projet financé par le Fonds unique interministériel (FUI)  qui soutient la recherche appliquée et aide au développement de nouveaux produits et services. Budget total : 6 M€. Le projet est soutenu par les collectivités territoriales dans les régions Pays de La Loire et Bretagne.

(3) Un visème est une image faciale utilisée pour décrire  la position labiale correspondant à un son vocal (phonème) donné.