Skip to content. | Skip to navigation

Emergences

Lettre d'information n° 16

Image emergences pour impression
Personal tools
You are here: Home 2011 Lettre d'information n° 16 Un logiciel qui accélère le mapping génétique
Document Actions

Un logiciel qui accélère le mapping génétique

Développé par une équipe de recherche du centre, GASSST permet de traiter rapidement l'information produite par les séquenceurs de dernière génération. L'outil vient d'intégrer la suite logicielle de GenomeQuest, une société américaine de bio-informatique. Rencontre avec Dominique Lavenier, chercheur CNRS à l'origine de ce nouvel outil au service des biologistes.

Développé par une équipe de recherche du centre, GASSST permet de traiter rapidement l'information produite par les séquenceurs de dernière génération. L'outil vient d'intégrer la suite logicielle de GenomeQuest, une société américaine de bio-informatique. Rencontre avec Dominique Lavenier, chercheur CNRS à l'origine de ce nouvel outil au service des biologistes.

Nous sommes dans l'ère NGS, le séquençage nouvelle génération. Les séquenceurs sont des machines capables de déchiffrer les textes des génomes. En simplifiant, en entrée, elles reçoivent une molécule d'ADN. En sortie, elles produisent des millions de petits textes sur un alphabet à 4 caractères : ATGC. Ces textes représentent l'information génétique mais fragmentée en une multitude de morceaux. Le logiciel que nous venons de concevoir dans l'équipe-projet Symbiose (1) est un outil parmi bien d'autres pour le traitement de ces données bio-informatiques. Cette brique permet de comparer très efficacement ces millions de petits textes avec un texte de référence."

Mis au point il y a moins d'un an et disponible en open source sur la plate-forme Genouest, GASSST (2) “sert par exemple lorsque des biologistes comparent des souches différentes d'un même génome. En référent, ils disposent d'une souche connue, emmagasinée dans les banques de séquences. Après le séquençage d'une nouvelle souche, on prend donc ces millions de petits textes. On les re-positionne sur la référente. On regarde où cela correspond et où cela diffère. Entre deux souches d'une même espèce, cette différence ne présente parfois que de petites variations par endroit. Grâce à ce type de logiciel, on peut les détecter. De la même manière, l'outil peut détecter des variations entre un génome humain de référence et celui d'un patient et ainsi contribuer à l'étude des maladies rares.

5 à 10 fois plus vite

GASSST vient aussi d'être intégré dans la suite d'applications commercialisée par GenomeQuest, une société leader de la recherche de bioséquences. “Je connais Jean-Jacques Codani, le directeur scientifique, de longue date. Je suis allé lui présenter nos travaux. Ils possédaient un logiciel de mapping équivalent. Mais ils ont souhaité tester le nôtre. L'intérêt est apparu tout de suite : le nouvel outil va 5 à 10 fois plus vite. Cette rapidité est extrêmement importante au regard du volume à traiter. La quantité de données double tous les six mois. A ce rythme, un traitement qui dure aujourd'hui une heure demandera une journée entière dans trois ans. Il y a donc un vrai enjeu économique.

D'ou vient ce gain de performance? “De notre connaissance du hardware, explique Dominique Lavenier. Nous possédons cette expertise du matériel. Dans l'équipe, il nous arrive de produire nos propres cartes par exemple. Nous connaissons bien la structure des processeurs, ce qui permet de concevoir un logiciel qui épouse au plus près leurs spécificités. Nous faisons travailler à fond tous les cœurs. Une partie de la rapidité provient aussi de notre connaissance fine de la structure hiérarchique de la mémoire. Une autre, du fait que nous détournons le jeu d'instructions vectorielles de l'ordinateur. Prévues pour le traitement graphique, ces instructions permettent de gérer plusieurs pixels. Grâces à elles, nous traitons plusieurs caractères en même temps. Plutôt qu'une seule instruction par cycle, nous en faisons donc plusieurs.

Autre avantage du logiciel : sa précision. “Quand on fait du mapping, soit on recherche exactement la même suite de caractères, soit on s'autorise par exemple une, deux ou trois erreurs entre la séquence référence et celle mise en regard. Dans ce mapping approché, les algorithmes sont beaucoup plus coûteux. Impossible aujourd'hui de se permettre une recherche exhaustive. On recourt à des heuristiques pour aller plus vite aux meilleurs endroits. Sauf que parfois... on rate ces suites de caractères. La précision se mesure sur le nombre d'endroits ratés. Là aussi, notre outil s'avère très bon par rapport aux autres. C'est également ce qui a motivé son intégration dans GenomeQuest.

L'industriel ne s'est cependant pas contenté d'acquérir une licence commerciale. “Il a participé à la mise au point. Il a financé trois mois de développement pour un doctorant. Par ailleurs, l'entreprise a voulu tester sur de gros volumes et des données réelles. Cet échange a joué un rôle très bénéfique. Il nous a apporté un retour d'expérience immédiat pour effectuer du debugging et réaliser un produit réellement utilisable en conditions de production. Dans notre domaine, le contact avec l'utilisateur final est indispensable si on veut fabriquer les bons outils. Nous espérons d'ailleurs continuer à travailler avec GenomeQuest et structurer une collaboration forte sur d'autres problématiques. En bio-informatique, cela évolue très vite. Dans 5 ans, nous utiliserons probablement d'autres techniques.

 

Notes :
(1) Equipe-projet commune entre l'Inria, le CNRS, et l'université Rennes 1. Egalement au sein de l'Irisa.

(2) Global Alignment Short Sequence Search Tool. Ces travaux ont fait l'objet d'une parution dans la revue Bioinfomatics.