Skip to content. | Skip to navigation

Emergences

Lettre d'information n° 29

Image emergences pour impression
Personal tools
You are here: Home 2013 Lettre d'information n° 29 La reconnaissance visuelle à très grande échelle
Document Actions

La reconnaissance visuelle à très grande échelle

Scientifique au centre rennais d'Inria, Hervé Jégou obtient une bourse du Conseil européen de la recherche (ERC) pour explorer de nouvelles méthodologies permettant d'effectuer de la découverte automatique de liens visuels entre des images. Comme il l'explique, il faudra un changement de paradigme pour venir à bout du problème d'échelle qui se pose quand l'on tente de croiser toutes les images dans de grandes collections.

Scientifique au centre Rennais d'Inria, Hervé Jégou obtient une bourse du Conseil européen de la recherche (ERC) pour explorer de nouvelles méthodologies permettant d'effectuer de la découverte automatique de liens visuels entre des images. Comme il l'explique, il faudra un changement de paradigme pour venir à bout du problème d'échelle qui se pose quand l'on tente de croiser toutes les images dans de grandes collections.

Flickr, Tumblr, Twitter... Des milliards d'images se répandent désormais dans nos vies numériques. À eux seuls, les Facebookeurs en rajoutent 3 500 à la seconde. Il n'y a pas si longtemps encore, pour chercher, organiser ou comparer ces images, l'utilisateur se voyait contraint de recourir à des mots clés. Cette méthode pouvait s'avérer parfois un brin frustrante. Mais les choses sont en train de changer grâce à des techniques permettant de décrire le contenu visuel sans passer par la case texte. Pierre angulaire de ces approches : la conversion de l'image en plusieurs milliers de vecteurs qui en constituent une description mathématique.

Très vite l'industrie a perçu tout le potentiel de cette avancée. Dès 2009, TinEye.com lançait un moteur de recherche basé sur la reconnaissance visuelle. Il suffit de lui soumettre une photo pour qu'il s'en aille fureter sur le web à la recherche de toutes les utilisations de cette image, y compris même des versions modifiées. Un outil de prédilection pour les photographes traquant le non respect de leur droit d'auteur sur l'immensité du réseau Internet. Le Goggle de Google offre un autre exemple d'application pour smartphones.

 

Parcourir d'immenses photothèques


Chercheur au centre rennais d'Inria, Hervé Jégou (1) est l'auteur de méthodes innovantes qui accélèrent de façon spectaculaire les performances de telles recherches dans les grandes bases. Son moteur trouve les bonnes images parmi 110 millions d'autres en seulement 200 millisecondes images (2). Mais tout cela concerne le domaine de la requête. Un autre défi bien plus impressionnant se profile à l'horizon : parcourir ces immenses photothèques pour identifier automatiquement tous les liens visuels pouvant exister entre des images, mais aussi entre des éléments visuels présents d'une image à l'autre.

Pour mettre à jour de tels liens, il n'existe pas actuellement de méthodologie efficace et précise,” estime Hervé Jégou. Pourquoi ? “Parce que l'on se heurte tout simplement à un énorme problème d'échelle.” Comparer une image à un milliard d'autres ne pose plus guère de difficulté à l'aune des puissances de calcul désormais disponibles. En revanche, effectuer une comparaison croisée entre toutes ces images pour en découvrir tous les liens visuels tient encore de la gageure.

Le coût devient quadratique en fonction du nombre d'images et de descripteurs par image. Actuellement, lier un million d'images requiert environ 7 heures. Mais pour un milliard, avec les approches actuelles, il faudrait 7 millions d'heures !”  Autre mauvaise nouvelle : les résultats ne s'avèrent satisfaisants que pour des récurrences visuelles fréquentes. Dans l'état de l'art, les meilleurs algorithmes ne détectent pas les similitudes plus rares.

Des représentations d'images radicalement nouvelles


C'est pour tenter de briser ce verrou que le Conseil européen de la recherche octroie au scientifique une bourse de 1,5 million d'euros. Pendant 5 ans, l'équipe qui va être constituée travaillera sur trois axes. Premier objectif : trouver des représentations d'images radicalement nouvelles. Ceci afin de pouvoir effectuer les tâches de reconnaissance visuelle ambitionnées par le projet. Le deuxième point porte sur l'identification de sous-ensembles de vecteurs susceptibles de représenter des objets identiques dans différentes images. Les solutions algorithmiques actuelles ne conviennent pas, soit par manque de robustesse soit par incapacité à passer l'échelle.

Le troisième volet fait apparaître le besoin de nouvelles méthodes de codage afin de représenter et comparer les ensembles de vecteurs dans de grandes collections. La mémoire et l'efficacité constituent à cet égard des critères essentiels. Certes, il existe des algorithmes comme le MinHash du moteur AltaVista qui savent comparer efficacement des entités appartenant à l'espace discret (les mots par exemple). Mais ils ne peuvent pas traiter la quantité de nuances contenues dans l'image. Autant de vecteurs qui relèvent de l'espace continu. Conséquence : une partie de l'information s'évapore durant la phase de quantification.

Si ces recherches sont couronnées de succès, les scientifiques illustreront le bien fondé de ces approches grâce à deux démonstrateurs où l'utilisateur pourra cliquer sur des liens visuels directement dans les images. “Je suis convaincu que ces travaux ouvriront aussi la voie à de nouvelles applications et de meilleures représentations pour la recherche par requête.”  C'est alors toute la chaîne de recherche visuelle qui s'en trouverait impactée.

------
Notes :

(1) Hervé Jégou est membre de TexMex, une équipe-projet de recherche Inria/Université Rennes 1/ Insa Rennes/CNRS, commune à l'Irisa (UMR 6074). Son projet soutenu par l'ERC s'appelle Viamass.

(2) "Aggregating local images descriptors into compact codes", Hervé Jégou, Florent Perronnin, Matthijs Douze, Jorge Sanchez, Patrick Pérez et Cordelia Schmid. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012.