Skip to content. | Skip to navigation

Emergences

Lettre d'information n° 22

Image emergences pour impression
Personal tools
You are here: Home 2012 Lettre d'information n° 22 Segmenter le flux télévisé pour la vidéo à la demande
Document Actions

Segmenter le flux télévisé pour la vidéo à la demande

Équipe rennaise travaillant à une meilleure exploitation des documents multimédia, Texmex vient de rassembler plusieurs de ses résultats de recherche dans TexMix, un démonstrateur technologique qui préfigure les nouvelles fonctionnalités de la vidéo à la demande.

Équipe rennaise travaillant à une meilleure exploitation des documents multimédia, Texmex vient de rassembler plusieurs de ses résultats de recherche dans TexMix, un démonstrateur technologique qui préfigure les nouvelles fonctionnalités de la vidéo à la demande.

De prime abord, TexMix possède les atours d'une application HTML5 prête à l'emploi. “Mais il faut garder à l'esprit qu'il s'agit en fait d'un démonstrateur scientifique, prévient Sébastien Campion, ingénieur de recherche en charge de ce projet (1).  Le but est d'illustrer les résultats de recherche de notre équipe. Nous avons incorporé dans un seul logiciel tous ces algorithmes développés dans les dernières années par les membres de TexMex. Beaucoup de ces travaux ont été financés à travers le projet européen Quæro.”

Segmentation à partir de la bande son

 Pour cette démonstration, les chercheurs ont d'abord enregistré un mois de journal télévisé. “À partir de ce corpus de 30 fichiers, TexMix a extrait de l'information de manière complètement automatique et composé une interface permettant de naviguer dans ces contenus.  Les différents reportages apparaissent sous forme de vignettes cliquables disposées sur une ligne chronologique. Dès qu'une vidéo est lancée, un sous-titre défile. “Ce flux de mots sans ponctuation illustre notre premier axe de recherche : la transcription de la parole. La segmentation thématique repose non pas sur l'image mais sur la bande son. Nous détectons les ruptures lexicales. Nous repérons le moment où le flux de mot passe, par exemple, du registre sportif à celui de la politique. C'est sur cette approche innovante que repose notre façon de décomposer le journal en une série de séquences.

Les algorithmes utilisés ici résultent des travaux de Guillaume Gravier (2) sur la reconnaissance de parole. Délinéariser ainsi à partir de la piste audio s'avère très pratique pour la suite. Car cela permet ensuite de décliner de nombreuses fonctions de navigation basées sur le contenu même des reportages.

Quand on passe le curseur au-dessus d'une vignette, des mots clés s'affichent : catastrophe aérienne, Indonésie, brouillard... Le spectateur sait immédiatement de quoi il est question. À partir de ces mots clés, nous interrogeons ensuite des moteurs de recherche comme Google, Bing ou Yahoo. Nous récupérons par exemple les 100 premières pages de résultats. Nous retraitons cette liste pour affiner la pertinence. Nous produisons ainsi une sélection de liens web qui présentent un rapport direct ou fournissent un complément d'information. De quoi permettre à l'utilisateur d'aller plus loin si besoin.  Une fois le contenu dûment identifié, TexMix peut désormais récupérer d'autres vidéos sur le même sujet. L'application offre ainsi un mode de navigation hypervidéo. Les reportages en rapport s'affichent instantanément dans la ligne chronologique sous forme de vignettes cliquables. D'un glissement de curseur, l'utilisateur peut choisir d'étendre ou de restreindre la période ciblée. Une semaine au lieu d'un mois complet par exemple.

Reconnaître les entités nommées

Deuxième axe de recherche : la reconnaissance d'entités nommées. Les noms propres comme les patronymes ou les toponymes peuvent s'avérer difficiles à détecter. ‘Barak Obama’ peut se confondre avec ‘baraque aux Bahamas’. “D'où le besoin de méthodes robustes comme celles proposées par Christian Raymond et Julien Fayolle (3). Une fois ces entités correctement identifiées, nous savons de qui on parle mais aussi de quel endroit. Cela va permettre une géolocalisation en temps réel. Par le biais d'une Google Map, TexMix peut visualiser instantanément les lieux mentionnés dans le reportage.” Il offre ainsi une autre modalité de navigation dans le contenu.

À tout cela s'ajoute une fonction permettant la comparaison d'images. “Prenons l'exemple d'un graphique montrant un sondage électoral. L'utilisateur pourrait vouloir le comparer à de précédentes enquêtes faites durant la campagne. Nous cherchons donc des graphiques ressemblant au premier.” D'un clic sur un simple bouton, TexMix s'en va fouiller la base à la recherche d'images similaires. Les vignettes correspondantes s'affichent en un clin d'oeil. “Sept millisecondes suffisent pour extraire ces images dans une base qui en compte 1,5 million. Nous avons même une autre démonstration qui fonctionne avec 10 millions d'images.” Cette rapidité à traiter de très grandes bases constitue la marque de fabrique des récents algorithmes développés par le chercheur Hervé Jégou (4). C'est le troisième axe de recherche illustré par l'application.

La capacité d'absorber ainsi de gros volumes s'avère incontournable pour prétendre pouvoir exploiter automatiquement les archives audiovisuelles accumulées au fil des décennies. “Les documentalistes de l'INA apprécient vivement notre démonstrateur.” Le logiciel suscite aussi l'intérêt d'une grande chaîne de télévision. “La chaîne voudrait évaluer ce que TexMix peut apporter à ses programmes en terme d'expérience utilisateur. Nous envisageons une collaboration bilatérale pour mener des travaux sur ce thème."

 
Notes:

(1) Sébastien Campion assure le développement de TexMix en compagnie de Morvan Brehinier.
(2) Exploiting Speech for Automatic TV Delinationeariz: From Streams to Cross-Media Semantic Navigation. Papier Guillaume Gravier et al.
(3) Reconnaissance robuste d'entités nommées sur de la parole transcrite automatiquement. Christian Raymond, Julien Fayolle. TALN'10, Montréal, juillet 2010.
(4) Product quantization for nearest neighbor search.
Hervé Jégou, Matthijs Douze et Cordelia Schmid.

 Lire aussi : 

PQ Codes : un logiciel pour fouiller dans les grandes bases d'images
Les grandes bases d'images passées au crible