Skip to content. | Skip to navigation

Emergences

Lettre d'information n° 17

Image emergences pour impression
Personal tools
You are here: Home 2011 Lettre d'information n° 17 KoriPlast : un logiciel pour exploiter les bases de données génomiques
Document Actions

KoriPlast : un logiciel pour exploiter les bases de données génomiques

PME bretonne de bio-informatique, Korilog édite des outils qui aident les biologistes à analyser les séquences d'ADN et de protéines. Elle débute avec l'équipe de recherche Symbiose* une collaboration visant à développer une solution pour gérer la pléthore d'informations issues du séquençage de nouvelle génération. Rencontre avec son fondateur, Patrick Durand.

PME bretonne de bio-informatique, Korilog édite des outils qui aident les biologistes à analyser les séquences d'ADN et de protéines. Elle débute avec l'équipe de recherche Symbiose* une collaboration visant à développer une solution pour gérer la pléthore d'informations issues du séquençage de nouvelle génération. Rencontre avec son fondateur, Patrick Durand.

Blast? C'est le Google de la bio-informatique, explique Patrick Durand. Développé par le NCBI américain (1), ce serveur permet de comparer les séquences d'ADN et de protéines accumulées par les scientifiques du monde entier depuis bientôt 40 ans. Il se présente sous la forme d'un site web que l'on peut interroger à distance mais il est aussi disponible en téléchargement pour une utilisation en local. A la sortie des machines de séquençage, quand on passe de la biochimie à l'informatique, on récupère de grandes masses de textes composées de quatre lettres : ATGC. Elles symbolisent les quatre constituants de la molécule : adémine, thymine, guanime et cytosine. Ce texte volumineux peut être vu comme du signal. Il contient de l'information. Toute la difficulté consiste à la mettre en évidence. La force de Blast réside dans son très bon algorithme qui permet justement d'identifier ce signal caché, de localiser ces signatures.”  Dans le monde de la biologie, ce moteur est tellement incontournable qu'il a fini par devenir un verbe. Quand on compare des séquences, on ‘blaste’.

Cela dit, l'outil connaît aussi des limites. “La puissance de calcul des serveurs publics ne permet pas de répondre à tous les besoins. Par ailleurs, l'exploitation des résultats reste ardue.” C'est donc pour faciliter l'emploi de Blast que l'entreprise Korilog a vu le jour en 2007 autour d'un logiciel complémentaire baptisé KoriBlast. “L'idée, c'était de proposer une plate-forme et un outil graphique capable d'aller au-delà pour aider les biologistes à gérer leurs projets de recherche dans ces banques de données toujours plus vastes. Il y a 10 ans, le biologiste comparait quelques séquences. Maintenant il en a des millions. La gestion de ces données prend donc une importance accrue si l'on veut  pouvoir comparer et analyser efficacement.

Sur serveurs publics ou en local

Un logiciel conçu pour mener des travaux à grande échelle dans les bases de séquences.
Exemple ? “Quand un biologiste veut blaster une grande quantité de séquences contre les banques du NCBI ou de l'EBI, son alter-ego européen, il peut difficilement mobiliser d'un seul coup autant de ressources en calcul pour lui seul. Il doit étaler dans le temps. Ce qui le contraint à écrire un programme adhoc en lignes de commande. Or ce n'est pas son métier. Notre outil offre ce genre de fonctionnalités. KoriBlast propose un système de batch adaptable en fonction de la ressource. Par ailleurs, on peut aussi choisir de ne pas blaster sur les serveurs publics, mais de travailler en local après avoir téléchargé des banques de séquences. Beaucoup de laboratoires optent pour cette option quand ils ne veulent pas communiquer leurs propres données. Notre logiciel fonctionne aussi dans cette configuration. Enfin, Koriblast peut se brancher sur un cluster de calcul (2). Il est ainsi disponible, par exemple, sur la plateforme GenOuest (3). Nous utilisons d'ailleurs pour ce faire des composants logiciels conçus par Inria.

L'autre valeur ajoutée du logiciel réside dans ses capacités d'analyse métagénomique. “Nous ne nous intéressons pas aux séquences seules. Nous corrélons aussi les informations connues à leur sujet : de quel organisme elles proviennent, à quoi elles servent, quelles sont les mutations... Le logiciel met en évidence ces fonctions. Il produit donc des rapports plus directement exploitables.

P comme parallèle


Pour l'entreprise, l'objectif est maintenant de passer à une autre échelle : “permettre aux biologistes non plus seulement de comparer une séquence à des millions d'autres, mais aussi des banques entières les unes aux autres.” Or Blast n'est pas optimisé pour ce travail. “Son algorithme n'est pas conçu pour exploiter au mieux l'architecture multicœurs des ordinateurs actuels. Ce domaine est précisément une des spécialités de Symbiose”, une équipe que Patrick Durand connaît bien pour y avoir travaillé pendant trois ans comme ingénieur. “Nous trouvons à Inria une compétence pointue qui va nous aider à faire évoluer notre technologie vers de plus en plus de parallélisation.”  Baptisé Koriplast, le projet collaboratif entre le centre de recherche Inria de Rennes et l'entreprise va durer 18 mois. “Nous bénéficions du concours du CRITT Santé Bretagne (4). Concrètement, la Région finance 50% du projet total. Le recrutement d'un ingénieur devrait intervenir à la rentrée.


Notes :

(1) NCBI : National Center for Biotechnology Information. Implanté dans le Maryland, ce centre facilite l'accès aux informations biomédicales et génomiques. BLAST : Basic Local Alignment Search Tool.
(2) Cluster ou grappe de calcul : un regroupement de plusieurs ordinateurs affectés à un même calcul, chaque machine (nœud) effectuant une partie de la tache parallèlement aux autres.
(3) Soutenue par Inria, l'université de Rennes 1 et le CNRS, à Rennes, GenOuest est une plate-forme bio-informatique offrant à la communauté des biologistes du stockage, du calcul, des logiciels et de l'assistance.
(4) Critt : Centres régionaux d’innovation et de transfert de technologies.

* Equipe-projet commune entre Inria, le CNRS, et l'université Rennes 1. Egalement au sein de l'UMR Irisa.