Skip to content. | Skip to navigation

Emergences

Lettre d'information n° 47

Image emergences pour impression
Personal tools
You are here: Home 2017 Lettre d'information n° 47 Une qualité inégalée dans la désaturation audio
Document Actions

Une qualité inégalée dans la désaturation audio

Développé au centre Inria Rennes – Bretagne Atlantique, le logiciel Spade répare les enregistrements audio saturés. Son algorithme innovant considère la désaturation comme un problème inverse et s'appuie sur la régularisation parcimonieuse dans le domaine temps-fréquence. Une approche qui améliore notablement l'état de l'art, comme l'explique le scientifique Rémi Gribonval.

Développé au centre Inria Rennes – Bretagne Atlantique, le logiciel Spade répare les enregistrements audio saturés. Son algorithme innovant considère la désaturation comme un problème inverse et s'appuie sur la régularisation parcimonieuse dans le domaine temps-fréquence. Une approche qui améliore notablement l'état de l'art, comme l'explique le scientifique Rémi Gribonval.

Pour réparer un son affreusement saturé, les outils commerciaux actuels montrent très vite leurs limites. Malgré leurs efforts, ils n'offrent qu'une piètre amélioration dont l'oreille aura peine à se satisfaire. Mais les choses sont en passe de changer. Un prototype né des dernières recherches académiques vient de parvenir à une qualité de restitution audio jusqu'alors inconnue.

Il est assez intéressant de noter que Spade ne résulte pas d'un plan pré-établi. Le logiciel nous est apparu un peu par hasard lors d'une séance de brainstorming à bâtons rompus, témoigne Rémi Gribonval, responsable de Panama, une équipe au croisement de la modélisation audio et du traitement du signal mathématique (1). En travaillant sur les outils parcimonieux et les problèmes inverses dans le cadre d'un projet européen, nous avions organisé une série de petits workshops collaboratifs avec des collègues de différentes équipes du son ou de l'image. Un des sujets abordés concernait ce que l'on appelle l'inpainting, c'est à dire le remplissage d'une partie manquante dans une image. À partir de là, nous avons fini par nous demander : quel est l'équivalent de l'inpainting en audio ? Et tout de suite, nous avons pensé à la désaturation.

La saturation se produit quand la capacité d'un système d'acquisition est dépassée. “Au-delà d'un certain seuil, la sinusoïde se retrouve écrêtée. On ne peut observer que les parties du signal qui se trouvent en dessous de ce seuil. Nous nous sommes alors dit : pourquoi ne pas considérer la désaturation simplement comme un type particulier de problème inverse ? Pourquoi ne pas essayer d'utiliser nos outils mathématiques pour reconstruire la partie manquante du signal en utilisant les connaissances que nous avons sur ses propriétés ?

De fil en aiguille, ces réflexions ont abouti à une première publication (2) en 2012 pour exposer le concept. En utilisant le même type de connaissance a priori que pour la compression audio (MP3, AAC…), la nouvelle approche surpassait nettement les méthodes précédentes pour ce qui est de la qualité. Avec un bémol toutefois : “l'algorithme était lent.” Par la suite, la thèse de doctorat de Srđan Kitić (3) a donné l'occasion de concevoir un mécanisme beaucoup plus rapide. “Nous appelons cela un modèle coparcimonieux. En deux mots, il offre des représentations beaucoup plus efficaces” et passe mieux à l'échelle. “Maintenant, Spade parvient à désaturer des fichiers audio en temps réel. Chose qu'on ne pouvait pas faire auparavant.

Démonstrateur disponible en application web

Depuis peu, un démonstrateur est disponible sous forme d'application web sur AllGo, la nouvelle plate-forme lancée pour faciliter l'utilisation des applications scientifiques d'Inria. “Nous avons pensé que ce serait une excellent vitrine pour promouvoir nos résultats de recherche et permettre aux gens de tester l'outil. Chacun peut s'y connecter, envoyer 30 secondes de fichier audio et le faire désaturer.

Cette nouvelle technologie intéresse aussi l'industrie. “Nos algorithmes ont été récemment intégrés dans la suite logicielle de Cedar Audio.” Basée à Cambridge, “cette entreprise britannique est le leader mondial des solutions professionnelles de restauration audio.” D'autres industriels pourraient suivre. “Avec du recul, conclut Rémi Gribonval, c'est un bel exemple montrant comment une recherche très en amont peut amener de vrais résultats qui déboucheront au final sur des applications intéressantes.

 -----
Notes :

(1) Parsimony and New Algorithms for Audio & Signal Modeling : Panama est une équipe-projet Inria/CNRS, commune à l'Irisa.

(2) Audio Inpainting, par Amir Adler, Valentin Emiya, Maria Jafari, Michael Elad, Rémi Gribonval et Mark Plumbley dans IEEE Transactions on Audio, Speech and Language Processing. 2012, pp.922 - 932.

(3) Cosparse regularization of physics-driven inverse problems, Srđan Kitić, 2015.