Skip to content. | Skip to navigation

Emergences

Lettre d'information n° 46

Image emergences pour impression
Personal tools
You are here: Home 2017 Lettre d'information n° 46 Un outil pour séparer les sources sonores
Document Actions

Un outil pour séparer les sources sonores

Développé au centre Inria Rennes – Bretagne Atlantique, le logiciel FASST permet aux professionnels du son de séparer les différents instruments jouant une musique ou encore d'isoler la parole du bruit ambiant qui l'accompagne. Mais avec un bémol : l'outil demeure difficile à prendre en main. Inria va donc entamer une Action de développement technologique (ADT) pour le rendre plus simple d'emploi, comme l'explique la chercheuse Nancy Bertin.

Développé au centre Inria Rennes – Bretagne Atlantique, le logiciel FASST permet aux professionnels du son de séparer les différents instruments jouant une musique ou encore d'isoler la parole du bruit ambiant qui l'accompagne. Mais avec un bémol : l'outil demeure difficile à prendre en main. Inria va donc entamer une Action de développement technologique (ADT) pour le rendre plus simple d'emploi, comme l'explique la chercheuse Nancy Bertin.

L'histoire débute en 2009. Travaillant sur de nouveaux algorithmes de traitement du signal, les chercheurs de l'équipe Panama (1) élaborent un logiciel pour séparer automatiquement différentes sources sonores présentes sur un enregistrement. De quoi isoler par exemple le jeu d'une clarinette ou d'un hautbois dans un orchestre de chambre. L'outil s'appelle FASST. Un acronyme pour : Flexible Audio Source Separation Toolbox. Développé à l'origine dans le langage Matlab, ce prototype a fait l'objet ensuite d'une industrialisation passant par sa complète réécriture en C. Objectif : que les professionnels puissent commencer à s'en servir.

Pourtant, dans les faits, un problème persiste. “Nous sommes régulièrement contactés par des industriels qui nous disent : ce que vous faites nous intéresse beaucoup. Mais votre logiciel... on n'a pas réussi à le faire fonctionner, témoigne la chercheuse Nancy Bertin. Et il faut reconnaître que son utilisation n'est pas si simple. Il y a des paramètres à régler et des éléments obscures pour les non spécialistes. Tout cela peut rebuter et limiter son emploi aux gens déjà bons connaisseurs de ce type d'outils. C'est d'autant plus dommage qu'il s'agit d'une bonne technologie.

Pour améliorer la prise en main par l'utilisateur, Inria s'apprête donc à lancer une nouvelle Action de développement technologique. Cette ADT permettra de financer un poste d'ingénieur pour deux ans. “Par ailleurs, nous prévoyons de recruter un deuxième ingénieur sur les fonds propres de l'équipe.

Le mot clé pour cette nouvelle phase de travaux : l'autonomie. “Nous souhaitons amener le logiciel à un stade où l'utilisateur pourrait le prendre sur l'étagère et trouver des paramétrages par défaut quand il ne maîtrise pas certaines fonctionnalités.”

Convertir les indications fournies par l'utilisateur

La nouvelle version devra aussi “savoir convertir les indications fournies par l'utilisateur vers quelque chose que le programme puisse comprendre.  Exemple ? “Certaines configurations du logiciel requièrent de connaître la position de la source sonore par rapport aux micros. Actuellement, notre outil ne comprend pas le positionnement exprimé en mètres. Ce paramètre d'entrée est calculé et formulé d'une façon plus complexe. L'utilisateur qui veut indiquer que la source se trouve à 2 m du micro dans telle direction ne sait pas forcément l'exprimer dans un paramètre compréhensible par le logiciel. Il va donc falloir que l'outil puisse prendre en compte l'information fournie et la traduire.

Autre information à renseigner : le type de sources. “Pour séparer des instruments dans une œuvre musicale, aujourd'hui, il est plus efficace de fournir un modèle de ces instruments. Là-aussi, il se peut que l'utilisateur ne sache pas le calculer et l'exprimer. Il s'agit d'un grand tableau de chiffres avec des fréquences. Si l'utilisateur pouvait nous dire : j'ai une guitare, un piano et un violon, alors nous pourrions lui fournir des modèles précalculés pour ces instruments.

Outre le monde de la musique, cette technologie intéresse particulièrement le domaine de la reconnaissance de la parole. “Nous sommes en pleine explosion des applications à commande vocale, que ce soit sur le téléphone avec le Siri d'Apple ou dans l'habitat avec Google Home ou encore Amazon Echo. Pour le téléphone, cela fonctionne bien. Mais dans les maisons, il faut pouvoir capter la voix malgré le bruit de la télévision ou les cris des enfants qui jouent. Il faut pouvoir la séparer avant de l'envoyer vers les systèmes de reconnaissance de parole commandant des applications domotiques : ferme les volets et déclenche l'éclairage.

Sur ce thème, les scientifiques participent à VoiceHome, un projet FUI (2) dans lequel ils travaillent avec Technicolor, Orange, Delta Dore, Voicebox et eSoftThings. Côté académique, le projet associe également le centre Inria de Nancy et Loustic, un laboratoire de l'université Rennes 2 spécialisé dans l'étude des usages et l'acceptabilité des technologies. Pour les utilisations non commerciales, la nouvelle version de FASST restera disponible sous licence libre, par exemple Affero GPL. On pourra aussi se familiariser avec l'outil et le tester grâce à un démonstrateur sous forme d'une application web qui sera proposée sur  A||GO, la plate-forme des logiciels Inria.

------
Notes :

(1) Parcimonie et Nouveaux Algorithmes pour le Signal et la Modélisation Audio. Panama est une équipe Inria / CNRS commune à l'Irisa.

(2) Le fonds unique interministériel (FUI) finance des projets de recherche et de développement (R&D) collaboratifs labellisés par les pôles de compétitivité.