Skip to content. | Skip to navigation

Emergences

Lettre d'information n° 09

Image emergences pour impression
Personal tools
You are here: Home 2010 Lettre d'information n° 09 Le passage du cloud à la puissance 15
Document Actions

Le passage du cloud à la puissance 15

L'Inria et l'antenne Bretagne de l'ENS Cachan créent une équipe de recherche commune sur la gestion des grandes bases de données dans le cadre du calcul réparti. Objectif : améliorer les performances du cloud computing. Explications avec Gabriel Antoniu, chargé de recherche Inria, cofondateur de KerData.

L'Inria et l'antenne Bretagne de l'ENS Cachan créent une équipe de recherche commune sur la gestion des grandes bases de données dans le cadre du calcul réparti. Objectif : améliorer les performances du cloud computing. Explications avec Gabriel Antoniu, chargé de recherche Inria, cofondateur de KerData.

Un million de milliards d'octets. C'est le petaoctet. Une unité de mesure réservée à ces bases de données de plus en plus gigantesques qui peuplent nos univers numériques. Comment manipuler de telles masses d'information ? Grâce au calcul réparti effectué simultanément par des milliers d'ordinateurs travaillant à l'unisson. Ceci a été possible à une échelle nationale grâce aux réseaux d’ordinateurs que l'on appelle des grilles, qui regroupent des ressources appartenant à plusieurs institutions. Depuis 2007, le concept a été repris par des géants comme IBM, Google ou HP qui proposent maintenant de démocratiser l’accès à de telles ressources via ce que l’on appelle le cloud computing. Créée en juillet 2009, l'équipe de recherche KerData a pour objectif d'améliorer la gestion de ces grands volumes dans le contexte du calcul distribué. "Nous nous intéressons aux applications qui nécessitent un traitement massif de données. Nous démarrons par exemple une collaboration avec l'Institut de biologie et chimie des protéines de Lyon . L'IBCP a des besoins importants en analyse pour comparer certaines protéines à d'autres, dans les bases de données biologiques. Pour cela, on recourt à des dizaines de milliers de processeurs qui coopèrent à un même traitement."

Mais ce type de calcul réparti ne concerne pas que le monde scientifique. "Il peut tout aussi bien traiter des statistiques commerciales. Imaginez une entreprise qui voudrait mesurer la sensibilité de sa clientèle à différentes offres de services. Son fichier marketing représente des millions de clients. Certes, elle possède des outils ad hoc pour analyser ces informations, mais ces applications ne sont plus adaptées à la taille des données. Tout notre travail consiste justement à chercher des moyens pour assurer ce passage à l'échelle. Notre expertise se situe dans la gestion de ces données dont la dimension se mesure désormais en petaoctets : le stockage et la fouille de ces documents."

Et l'affaire n'est pas simple. "Des milliers de processus parallèles viennent agir sur cette immense base, tant en lecture qu'en écriture. Cet aspect écriture complique les choses. On rentre là dans la notion de versioning, la gestion des versions. Comment être sûr, par exemple, que la mise à jour ne va pas bloquer la lecture ? C'est à ce niveau-là que nous apportons des solutions. Nous faisons ce qu'on appelle du snapshot virtuel. Cette méthode recourt à des métadonnées pour générer un instantané des données existantes. Elle permet de stocker et publier par ajout d'informations, de descriptions. Pendant les mises à jours, on peut continuer à faire des analyses en flux continu. On optimise ainsi le débit d'accès aux données." Autre avantage : plus besoin de dupliquer les bases, une opération gourmande en espace disque. "D'un côté, on minimise le coût du stockage sur les serveurs, de l'autre on optimise l'accès aux données, ce qui améliore la performance du calcul. Nos techniques intéressent donc en particulier les entreprises qui veulent offrir des accès à des services de cloud computing."  A noter au passage la compatibilité avec Map Reduce, "un nouveau modèle de programmation popularisé par Google et qui  aide les développeurs à écrire leurs applications dans un environnement permettant le traitement massif en parallèle."

C'est à Urbana Champaign, aux Etats-Unis que KerData va tester ses méthodes. "Dans le cadre d’une collaboration que nous sommes en train de monter. Nous utiliserons le Cloud Computing Testbed, la plate-forme expérimentale de l'Université de l'Illinois qui est un acteur majeur du HPC (1)."  Toujours dans l'Illinois, l'équipe collaborera également avec l'Argonne National Laboratory. Ce laboratoire a vu naître la première bombe atomique, mais aussi le concept même de grille de calcul, sous la plume de Ian Foster. Ce scientifique était à l'origine de Globus, premier middleware facilitant l'usage du calcul distribué. Dans ce sillage, et sous la direction de Kate Keahey,  l'ANL travaille désormais sur Nimbus (2), un nouvel outil de gestion des ressources sur des clouds, volontiers qualifié de cloudware. Les chercheurs de KerData souhaitent rejoindre ce projet au plus vite.  "Nous espérons y intégrer nos mécanismes de partage efficace des données. Nous avons la brique qui leur manque." Objectif final ? "Faire en sorte que le cloud tienne la promesse non tenue par les grilles et aller vers cette fameuse vision exprimée par Ian Foster : qu'utiliser un cloud soit aussi simple que de se brancher sur une prise électrique."

---
Notes :

(1) High Power Computing. Calcul haute performance.
(2) Globus et Nimbus sont des environnements en open source.