Skip to content. | Skip to navigation

Emergences

Lettre d'information n° 17

Image emergences pour impression
Personal tools
You are here: Home 2011 Lettre d'information n° 17 Les nouveaux contours de la vidéo
Document Actions

Les nouveaux contours de la vidéo

L'équipe-projet Temics* élabore des algorithmes qui permettront de tirer pleinement partie des dernières innovations de l'imagerie vidéo. Rencontre avec Christine Guillemot, responsable du projet et directrice de recherche Inria.

L'équipe-projet Temics* élabore des algorithmes qui permettront de tirer pleinement partie des dernières innovations de l'imagerie vidéo. Rencontre avec Christine Guillemot, responsable du projet et directrice de recherche Inria.

Image HD, Ultra HD, HDR ou 3D. Les formats émergents de la vidéo offrent de plus fortes résolutions, des espaces colorimétriques étendus ou de nouvelles dimensions volumétriques. Mais en contre-partie, “ils engendrent des quantités plus importantes de données à stocker et à transporter, explique Christine Guillemot. Notre équipe étudie des algorithmes qui viendront optimiser la chaîne de bout en bout : analyse, compression, transmission, restitution.

Le paysage actuel est marqué par la montée en puissance des contenus multi-vues au format MVD (Multiview Video plus Depth). Finie la caméra unique. Place aux capteurs multiples qui assurent l'acquisition d'un certain nombre de vues d'une même scène. “Ces plans différents restituent l'impression de relief sur les écrans autostéréoscopiques. Aux coordonnées traditionnelles XY du plan 2D vient s'ajouter une information de profondeur qui nous aide, par exemple, à générer ce que nous appelons des points de vue virtuels : des vues intermédiaires différentes de celles prises à l'origine par les caméras. A partir des coordonnées 2D et de leur profondeur associée, nous calculons une représentation complète de la scène dans l'espace. C'est comme si nous avions des caméras supplémentaires. Cela nous permet d'aller à la rencontre de toutes ces applications où l'on peut naviguer dans la scène de façon immersive.” C'est ce que l'on appelle la Free Viewpoint Video. Aux premières loges : l'univers du jeu.

Compression par épitomes

Cela dit, “plus la caméra virtuelle est éloignée de l'image réelle, plus l'affaire se complique. On voit apparaître des zones d'occlusion dans l'image correspondant à des parties cachées de la scène pour lesquelles l'information de texture n'est pas connue. Il est alors nécessaire d'estimer cette information manquante en mettant en œuvre des méthodes d'in-painting de texture.” L'équipe-projet Temics privilégie des approches basées sur des techniques de réduction de dimensionnalité de données. Les travaux sur les textures donnent d'ailleurs lieu à d'autres développements. “Nous étudions des algorithmes permettant d'extraire  au sein d'une représentation compacte [parfois appelée épitome] les caractéristiques et structures répétitives de l'image. Des méthodes de synthèse de texture sont alors utilisées pour reconstruire l'image à partir de cette représentation compacte.”  Cette compression par épitomes représente un gain conséquent dans la transmission des données. Les chercheurs explorent le domaine en partenariat avec le groupe Technicolor.

Multi-vues + profondeur

Mais l'équipe-projet Temics  travaille aussi sur d'autres approches. Pour pouvoir représenter une scène en relief (par exemple pour des applications de télévision en 3D) ou pour pouvoir naviguer au sein d'une scène, il est nécessaire d'associer une information de profondeur à chaque pixel des vidéos de la scène. Ceci engendre des volumes de données extrêmement conséquents. “Nous cherchons donc à construire d'autres représentations plus compactes où nous aurons moins de données à stocker ou à transmettre pour les contenus multi-vues avec information de profondeur. La spécification d'un nouveau format de représentation de contenus vidéo multi-vues avec information de profondeur fait d'ailleurs l'objet d'une phase de normalisation démarrant à l'Iso, au sein d'un groupe qui s'appelle 3DV. L'objectif est de définir un nouveau format pour ces données multi-vues ou LDI (Layered Depth Images). Il devrait voir le jour vers 2015.

Les chercheurs s'intéressent également à la modélisation d'intérêt visuel. Quand une actrice entre en scène, elle capte toute l'attention. Idem pour le footballeur qui hérite du ballon. Les autres parties de l'image s'estompent dans l'esprit du spectateur. En jouant sur ces changements de perception, il devient possible d'adapter les traitements de la vidéo aux zones d'attention visuelle. Mais encore faut-il savoir où le regard se porte vraiment. “Nous travaillons sur des modèles pour prédire sur quelle zone l'observateur va focaliser son attention. A partir d'une séquence vidéo, il faut parvenir à déterminer de manière automatique les endroits qui vont capter le regard. Nous les appelons des zones de saillances.” Comment évaluer la pertinence d'un tel algorithme ?  “En le confrontant à une vérité de terrain.” En l'occurrence des panels de spectateurs dont le regard est suivi à l'aide d'un eye tracker. “Il existe de nombreux modèles en 2D, mais très peu en 3D. Nous souhaitons étendre ces travaux vers les contenus en relief.

* L'équipe-projet Temics, commune à Inria, le CNRS et l'Université de Rennes 1, est dirigée par Christine Guillemot.