Skip to content. | Skip to navigation

Emergences

Lettre d'information n° 42

Image emergences pour impression
Personal tools
You are here: Home 2016 Lettre d'information n° 42 Composer une meilleure palette d'outils pour la bio-informatique
Document Actions

Composer une meilleure palette d'outils pour la bio-informatique

Dans le sillage de travaux menés par une équipe de bio-informatique du centre Inria Rennes - Bretagne Atlantique, une nouvelle startup s'apprête à se lancer. Baptisée Engines On, elle proposera des prestations de traitement de données génomiques, en particulier pour le diagnostic en cancérologie. En s'appuyant sur les outils open source les plus innovants de la recherche académique, elle ambitionne d'abaisser le coût de ce type de services pour les hôpitaux.

Dans le sillage de travaux menés par une équipe de bio-informatique du centre Inria Rennes - Bretagne Atlantique, une nouvelle startup s'apprête à se lancer. Baptisée Engines On, elle proposera des prestations de traitement de données génomiques, en particulier pour le diagnostic en cancérologie. En s'appuyant sur les outils open source les plus innovants de la recherche académique, elle ambitionne d'abaisser le coût de ce type de services pour les hôpitaux.

Le séquençage du génome révolutionne la biologie, la médecine et la pharmacie. Mais l'exploitation de cette information demeure difficile. La molécule d'ADN s'exprime en millions de suites de caractères où se succèdent les lettres A C G T. Impossible de lire directement ces données à la sortie des machines. Ce sont de petits fragments de textes qu'il faut d'abord comparer puis assembler pour recomposer la séquence. Ce fastidieux travail de puzzle s'effectue lentement à l'aide de logiciels spécialisés qu'on appelle des assembleurs génomiques. L'opération exige plusieurs jours, une grosse grappe de calcul et un budget en conséquence.

Depuis quelques années, l'équipe de bio-informatique Genscale (1) tente de déverrouiller ce goulet d'étranglement en améliorant l'algorithmique des logiciels pour minimiser leur empreinte mémoire. Et elle obtient des résultats. Regroupées dans une librairie appelée GATB, ses plus récentes applications utilisent 20 à 50 fois moins de RAM que les logiciels précédents. L'outil emblématique de cette nouvelle génération s'appelle Minia. Les chercheurs sont même parvenus à le faire fonctionner sur un simple nano-ordinateur Raspberry Pi.

C'est pour faciliter l'usage de ce type de logiciels innovants dans les pipelines de bio-informatique que nous allons créer une entreprise (2), explique Yvan Le Bras, biologiste de formation et depuis cinq ans ingénieur Inria investi sur différents projets liés à la plateforme de bio-informatique GenOuest (3). Notre objectif est de proposer des services d'analyse de données à destination à la fois des entités publiques et des industriels.

En toile de fond : l'émergence de ce qu'on appelle maintenant l'eScience. De quoi s'agit-il ? “De tous ces nouveaux outils informatiques susceptibles d'améliorer grandement les processus de recherche en s'appuyant sur les ressources distribuées et le travail en réseau via le web. Ces applications s'intègrent les unes aux autres pour constituer des palettes que l'on appelle des EVR : des environnements virtuels de recherche. Ils offrent aux utilisateurs l'accès à des infrastructures de calcul, du stockage de données, des logiciels de traitement, des espaces collaboratifs, etc.

Yvan Le Bras a coordonné la mise en place d'un tel EVR sur le réseau inter-régional de plateformes Biogenouest. “Cela nous a permis d'acquérir beaucoup d'expérience que ce soit en matière de virtualisation, de web sémantique, de cloud, de big data, de partage de bases de données, d'ontologies ou de gestion d'informations hétérogènes. Ce que nous voulons faire avec l'entreprise Engines On, c'est réutiliser toute notre expertise et construire ce type d'environnements pour différents contextes de la biologie, et en particulier le diagnostic en cancérologie.

Pourquoi ce domaine ? “Parce que nos approches informatiques nous permettent techniquement de très bien répondre aux problématiques des CHU. Nous avons identifié les meilleurs logiciels issus de la recherche académique. À partir des outils les plus novateurs, nous pouvons composer des pipelines performants qui contribueront à abaisser considérablement les coûts d'utilisation pour les établissements. Par ailleurs, le choix de solutions open source apporte aussi la garantie de disposer de logiciels qui vont continuer à évoluer rapidement car ils s'appuient sur des communautés de développeurs très actives. Des logiciels propriétaires peuvent difficilement offrir une telle réactivité. Par ailleurs, le modèle que nous défendons est aussi porteur de valeurs éthiques. Nous utilisons un code couvert qui garantit une complète transparence et notre mode de fonctionnement préserve la souveraineté sur les données. Ce qui s'avère un enjeu de taille dans les sciences de la vie.

-------
Notes :

(1) Scalable Optimized and Parallel Algorithms for Genomics. GenScale est une équipe-projet Inria/ENS Rennes /Université Rennes 1, commune à l'Irisa (UMR CNRS 6074).

(2) Dirigée par Jennifer Del Giudice, l'entreprise Engines On se composera de Yvan Le Bras, Thomas Darde, François Moreews, François Morin et Patrick Durand.

(3) GenOuest est une plateforme de bio-informatique gérée par Inria et l'Irisa, à Rennes.