Skip to content. | Skip to navigation

Emergences

Lettre d'information n° 26

Image emergences pour impression
Personal tools
You are here: Home 2013 Lettre d'information n° 26 Des algorithmes pour décortiquer le son
Document Actions

Des algorithmes pour décortiquer le son

Nouvelle équipe de recherche au centre rennais d'Inria, Panama se positionne à la confluence de la modélisation audio et du traitement du signal mathématique. Ses travaux trouvent aussi une résonance dans l'exploitation des données de grande taille comme l'explique Rémi Gribonval, le scientifique porteur du projet.

Nouvelle équipe de recherche au centre rennais d'Inria, Panama se positionne à la confluence de la modélisation audio et du traitement du signal mathématique.  Ses travaux trouvent aussi une résonance dans l'exploitation des données de grande taille comme l'explique Rémi Gribonval, le scientifique porteur du projet.

Notre objectif ? Développer des techniques algorithmiques efficaces pour modéliser, acquérir et traiter des signaux de grande dimension, résume Rémi Gribonval. En l'occurrence, nous nous intéressons principalement aux données acoustiques. Le son constitue d'ailleurs le thème unificateur entre les membres de cette nouvelle équipe” qui succède à Metiss (1).

Trois axes de recherche charpentent le nouveau projet. Le premier concerne les modèles et les représentations parcimonieuses (2). “Nous avons une bonne connaissance mathématique du rôle de la parcimonie, par exemple pour résoudre les problèmes inverses. Nos algorithmes fonctionnent bien, mais ils peinent encore sur les problèmes de grande dimension. Nous souhaitons donc, d'une part, résoudre cette question du passage à l'échelle. Au-delà de cela et d'une façon plus importante, nous voulons surtout étendre la portée de la notion même de parcimonie. Nous en avons une définition historique liée au concept de dictionnaire, c'est-à-dire des briques de bases à partir desquelles des objets sont construits. Nous cherchons maintenant d'autres manières de décrire qu'une donnée est simple, et cela en utilisant un nombre limité de paramètres.”  C'est justement pour explorer plus en amont les vertus de cette parcimonie que le Conseil européen de la recherche a attribué une bourse à Rémi Gribonval en 2011. Grâce à cette Starting Grant de l'ERC, trois recrutements viennent d'intervenir au sein de l'équipe.

Pour exploiter pleinement leurs nouveaux modèles, les chercheurs revisitent aussi les techniques d'apprentissage. “Il s'agit d'apprendre les caractéristiques spécifiques du modèle et de les adapter à des jeux particuliers de données. Beaucoup de travaux reposent sur un formalisme mathématique où l'on définit un dictionnaire à partir de l'analyse mathématique. Ces dernières années, nous avons cherché de nouvelles méthodes où nous inférons complètement à partir de données. Dans certaines situations, nous tentons aussi de combiner une connaissance a priori et une connaissance en situation. Il y a des lois de la physique qui interviennent et que nous utilisons. Les équations des ondes par exemple.

Séparation de sources

Le deuxième axe de recherche porte sur l'acquisition et l'analyse robuste de scènes sonores. “C'est une façon un peu élargie de parler du volet séparation de sources.” Pas assez de micros pour un concert. Trop d'instruments sur la même piste. Du mono à transformer en stéréo. Une voix à isoler du fond sonore. Les besoins abondent. “L'équipe possède un grand savoir-faire dans ce domaine qui donne lieu à un certain nombre de transferts.” Des résultats de recherche ont été intégrés par des partenaires comme le studio d'enregistrement Maia ou encore Audionamix, un spécialiste des bandes sons pour le cinéma. Les scientifiques collaborent aussi avec Sonic Emotion, une entreprise de Zurich qui conçoit des systèmes de spatialisation pour les matériels audio grand public.Le troisième axe vise l'identification de structures dans de grands corpus audio. “Certains des travaux de l'équipe s'appuient sur ce qui se fait en informatique musicale et en musicologie. Dans les morceaux, on rencontre souvent des motifs de type couplet/refrain par exemple. Cependant il existe quantité de types de répétitions approximatives à différentes échelles. Il faut donc pouvoir décrire ces structures d'une façon suffisamment robuste pour que, si on les fait écouter à différentes personnes, celles-ci convergent vers la même description, la même annotation, le même découpage. Il s'agit d'aller vers des définitions de concepts de structures musicales avant de proposer des algorithmes qui découvriront automatiquement ces structures dans de grands flux audio.

Traitement des signaux bio-médicaux

Au-delà de la thématique audio, les chercheurs prévoient d'étendre leur activité à d'autres domaines comme l'indexation multimédia et le traitement des signaux bio-médicaux : IRM ou encéphalogrammes par exemple. “Nous pourrions être fournisseurs de méthodologies et travailler en interaction avec des équipes Inria comme TexMex, Visages, Serpico ou Hybrid, mais aussi, par exemple, le LTSI, le Laboratoire traitement du signal et de l'image, de l'Université Rennes 1. Car finalement peu importe la nature du signal, à partir du moment où nous pouvons l'inscrire dans un certain formalisme mathématique.

--------
Note :
(1) Parcimonie et Nouveaux Algorithmes pour le Signal et la Modélisation Audio.
Panama est une équipe commune entre Inria et le CNRS. Elle fait partie de l’Irisa.
(2) L’objectif des représentations parcimonieuses est d’observer un signal pour en distinguer les composantes significatives et le décrire  au moyen d'un faible nombre d'éléments.