Skip to content. | Skip to navigation

Emergences

Lettre d'information n° 29

Image emergences pour impression
Personal tools
You are here: Home 2013 Lettre d'information n° 29 Assembler un génome sur Raspberry Pi
Document Actions

Assembler un génome sur Raspberry Pi

Nouveau logiciel d'assemblage génomique à faible empreinte mémoire, Minia est capable de fonctionner non seulement sur un cluster mais aussi sur un simple ordinateur de bureau, facilitant ainsi le travail des biologistes. Bio-informaticiens au centre Inria de Rennes, Guillaume Collet et Guillaume Rizk sont même parvenus à le faire fonctionner sur un Raspberry Pi, un ordinateur miniature ne possédant que 512 Mo de Ram.

Nouveau logiciel d'assemblage génomique à faible empreinte mémoire, Minia est capable de fonctionner non seulement sur un cluster mais aussi sur un simple ordinateur de bureau, facilitant ainsi le travail des biologistes. Bio-informaticiens au centre Inria de Rennes, Guillaume Collet et Guillaume Rizk sont même parvenus à le faire fonctionner sur un Raspberry Pi, un ordinateur miniature ne possédant que 512 Mo de Ram.

Pour Noël 2012, quand il passe commande d'un Raspberry Pi à 35 euros “par simple curiosité,” Guillaume Collet est loin de se douter de ce qui va suivre. Conçu à l'origine pour favoriser l'apprentissage de l'informatique en milieu scolaire, cet ordinateur à peine plus grand qu'une carte de crédit est très vite devenu le jouet de prédilection des geeks de tout acabit car il offre d'infinies possibilités créatives.

En janvier, cet appareil rudimentaire était l'objet des conversations autour de la machine à café, au centre de recherche Inria de Rennes, où Guillaume Collet effectue un post-doctorat sur la reconstruction automatique des réseaux métaboliques. “Tout le monde se demandait quel genre de logiciel pourrait fonctionner sur une machine disposant d'aussi peu de mémoire vive.” Très vite, un nom a surgi : “Et si on essayait Minia ?

Comparer les fragments après le séquençage


Minia appartient à une famille de logiciels assez rares qu'on appelle les assembleurs génomiques. “Il faut savoir tout d'abord qu'il y a eu d'énormes progrès technologiques dans le domaine des machines de séquençage. Désormais quelques jours et quelques milliers de dollars suffisent pour séquencer un génome. Les dernières machines ont la taille d'une grosse clé USB et produisent des volumes de données considérables. Mais ces informations ne sont pas directement exploitables. Elles se présentent sous la forme de petits fragments de textes qu'il va falloir comparer entre eux et assembler pour reconstituer la séquence.” Voilà précisément le travail d'un outil comme Minia.

Développé par Rayan Chikhi et Guillaume Rizk durant leur thèse au sein de l'équipe de recherche en bio-informatique Genscale (1), ce logiciel open source est connu pour sa très faible consommation de mémoire vive, comparé à d'autres outils. “Il est capable d'assembler un génome humain sur un ordinateur de bureau en une journée, résume Guillaume Rizk. Le faire tourner sur les 512 Mo du Raspberry Pi paraissait donc le prochain défi.

Guillaume Collet et Guillaume Rizk se sont mis à la tâche. “Au début, cela n'a pas fonctionné. Nous nous sommes aperçus que la taille des buffers étaient trop grande par rapport à la mémoire disponible. Il a fallu aussi changer un peu la structure des données.” Une fois ces modifications effectuées, au printemps venu, Minia était opérationnel. “Nous avons commencé par la bactérie E. coli. puis C. elegans,” un ver de vase microscopique (2) dont le génome (100 millions de paires de base) a été assemblé en 19 heures.

À l'aide d'un vieux fer à souder, Guillaume Collet s'est ensuite employé à greffer sur la machine “quelques LEDs et une imprimante thermique de caisse enregistreuse qui livre des statistiques sur les morceaux de textes assemblés.” Pour faire bonne mesure, le dispositif a trouvé sa place dans une boîte à chaussures. Anecdote mise à part, le Raspberry Pi est devenu un démonstrateur des qualités intrinsèques de Minia. Au banc de test, le logiciel se satisfait d'un pic mémoire de 0,2 Go. Les outils similaires, eux, culminent à plus de 20 Go. “Dominique Lavenier, le responsable de l'équipe, nous a suggéré de montrer ce travail durant la conférence Jobim, le rendez-vous de la communauté francophone de bio-informatique, qui se tient chaque année en juillet.” Succès instantané : “tous les participants, du plus jeune au plus vieux, se sont pressés autour de l'ordinateur pour pouvoir essayer à leur tour d'assembler sur une machine aussi basique.”  Sans surprise, Minia sur Raspberry Pi a décroché aussi le prix du meilleur poster.

Nouvelle boîte à outils pour l'assemblage


Naturellement, nous ne sommes pas en train de suggérer que les biologistes devraient assembler sur Raspberry Pi, précise Guillaume Collet. Nous venons simplement de prouver que Minia peut fonctionner avec très peu de mémoire vive, un paramètre crucial dans notre domaine. Alors que d'autres assembleurs comme Velvet, SOAPdenovo ou ABySS ne s'utilisent que sur un cluster, notre logiciel, lui, fonctionne sur un simple ordinateur de bureau (2). Ce qui pour les biologistes s'avère bien plus pratique.

Cela dit, Minia n'est pas encore achevé. L'assemblage se compose de trois phases : le comptage des k-mers, la construction des contigs et le scaffolding. Autrement dit : assemblage de petits morceaux, puis de plus gros et enfin du puzzle final. “Actuellement, le logiciel est disponible pour les deux premières tâches. Ce sont d'ailleurs les phases les plus coûteuses, ajoute Guillaume Rizk. Les biologistes peuvent d'ores et déjà insérer ces deux briques dans leur pipeline.” Quant à la fonction de scaffolding, “nous prévoyons de l'inclure dans des versions ultérieures. À terme, Minia fera partie de GATB,” une future boîte à outils qui sera entièrement dédiée à l'assemblage génomique.



-----
Notes :
(1) Scalable Optimized and Parallel Algorithms for Genomics: GenScale est une équipe-projet Inria/ENS Rennes /Université Rennes 1, commune à l'Irisa (UMR CNRS 6074). Guillaume Collet est membre de Dyliss, une équipe-projet Inria/CNRS/Université Rennes 1, commune à l'Irisa.
(2) Premier organisme multicellulaire dont le génome fut entièrement séquencé, Caenorhabditis elegans sert désormais d'organisme de référence pour les biologistes.
(3) Lire : Space-efficient and exact de Bruijn graph representation based on a Bloom filter, by R. Chikhi and G. Rizk. WABI (2012).