Skip to content. | Skip to navigation

Emergences

Lettre d'information n° 42

Image emergences pour impression
Personal tools
You are here: Home 2016 Lettre d'information n° 42 Re-dessiner le cloud
Document Actions

Re-dessiner le cloud

L'essentiel de l'infrastructure cloud dans le monde se compose en réalité de gigantesques centres de données rassemblés en un nombre de lieux étonnamment restreint. Une telle concentration engendre différents risques, en particulier en terme de fiabilité. Qu'un seul de ces sites géants tombe en panne et les conséquences pourraient s'avérer dantesques. Par ailleurs, le transport planétaire des données entre l'utilisateur final et ces plateformes situées aux antipodes consomme beaucoup de ressources. À cela s'ajoutent des problèmes de latence dus à la distance. En association avec Orange et Renater*, Inria étudie un modèle alternatif qui permettrait d'éparpiller la puissance de calcul et de stockage tout le long du réseau IP, en particulier dans les locaux déjà gérés par les fournisseurs d'accès Internet.

L'essentiel de l'infrastructure cloud dans le monde se compose en réalité de gigantesques centres de données rassemblés en un nombre de lieux étonnamment restreint. Une telle concentration engendre différents risques, en particulier en terme de fiabilité. Qu'un seul de ces sites géants tombe en panne et les conséquences pourraient s'avérer dantesques. Par ailleurs, le transport planétaire des données entre l'utilisateur final et ces plateformes situées aux antipodes consomme beaucoup de ressources. À cela s'ajoutent des problèmes de latence dus à la distance. En association avec Orange et Renater*, Inria étudie un modèle alternatif qui permettrait d'éparpiller la puissance de calcul et de stockage tout le long du réseau IP, en particulier dans les locaux déjà gérés par les fournisseurs d'accès Internet.

Quincy ? 6 000 âmes près de la rivière Columbia dans l'arrière pays de l'Etat de Washington. Une paisible bourgade jusqu'en 2007 quand quelqu'un s'est souvenu du barrage de Grand Coulee. Attirés par ses 20TWh annuels d'énergie hydroélectrique bon marché, des centres de données se sont mis à pousser comme des champignons. Ceux de Microsoft, de Yahoo et de Dell pour n'en nommer que quelques-uns. “Quand vous vous connectez pour réserver une table dans votre pizzéria préférée, il y de fortes chances que le traitement des données se fasse en vérité là-bas. Ou alors à Dublin ou un autre de ces rares endroits hébergeant désormais la grande majorité des sites Internet. Autrement dit, le Cloud se compose en réalité d'une poignée d'installations géantes,” constate le chercheur Adrien Lebre,  coordinateur de l’Inria Project Lab Discovery (1), une initiative visant à redéfinir le concept même du cloud.

Comme il l'explique, cette concentration engendre son lot d'inconvénients. “Tout d'abord, héberger des services qui sont en fait de nature locale sur ces plateformes très éloignées s’avère être un non-sens en terme d’échange réseau, voire de consommation énergétique. Quelle est la pertinence, si ce n’est économique, d’héberger un service de webTV local à une distance significative, voire dans un autre pays que celui des utilisateurs finaux ? D'autre part, utiliser un très petit nombre de très grands centres de données constitue un risque intrinsèque de sécurité. Sans parler de tous les problèmes juridiques liés à la souveraineté sur les données quand le service de Cloud se trouve à l'étranger.  Mais après trois ans de recherches, les scientifiques en sont venus à considérer que le principal problème était peut-être d'une autre nature. En l'occurrence : “la latence due à la grande distance entre l'utilisateur final et les centres de données. Il y a sur Internet de plus en plus d'objets  potentiellement mobiles qui doivent prendre en compte cette latence. C'est le cas par exemple des téléphones portables dont le disque SSD se détériore à mesure que l'on y écrit des données. Pour minimiser les écritures, il serait plus judicieux de pouvoir satisfaire ces dernières en temps réel sur des ressources de stockage fournies par le cloud. Or les problèmes de latence contrarient ce modèle. D'où la nécessité de réduire les distances entre les utilisateurs et les centres de données.  Autrement dit : déplacer les ressources pour mieux épouser la répartition géographique des utilisateurs.

Localiser au plus près

À la place des gigantesques installations actuelles, les chercheurs imaginent de déployer au niveau local une kyrielle de micro et nano centres de données (2). “Une étude de Microsoft a montré que c'était une alternative viable.” Mais une autre question se fait aussitôt jour : où donc alors installer ces innombrables batteries de serveurs énergivores ? “Sur la structure du réseau Internet lui-même, répond Adrien Lebre. Ce réseau comporte déjà de nombreuses infrastructures gérées par les fournisseurs d'accès. On les appelle des points de présence. Ces installations physiques hébergent des serveurs, des routeurs et autres matériels en charge d’opérer le réseau Internet. En raison de leur proximité avec les utilisateurs, ces infra-structures pré-existantes sont le lieu tout trouvé pour accueillir des ressources de calcul et de stockage afin de servir au mieux les besoins locaux.” Installer dans ces points réseau sur un certain nombre de serveurs hébergeant des machines virtuelles et du service de stockage de données permettrait de “limiter nativement les échanges réseau au minimum nécessaire. Ce qui diminuerait à la fois la latence et la quantité de données circulant au travers les réseaux,  ouvrant ainsi la porte à de nouvelles stratégies pour minimiser l’impact énergétique.

Soit dit en passant,  ce modèle d’informatique utilitaire pourrait aussi utiliser les locaux qui se trouvent au pied des antennes-relais. Dans cette perspective, “notre partenaire Orange mène des recherches complémentaires en étudiant l'intérêt des communications appareil-vers-appareil (D2D). Imaginez un but durant un match de foot. Tout le monde veut revoir le ralenti. Au lieu d'avoir des milliers de personnes cherchant à télécharger le même fichier à partir d'un serveur, ce serait aussi simple de transmettre la vidéo directement entre téléphones mobiles se trouvant dans la même zone géographique.” Les recherches dans le cadre du Project Lab Discovery vont dans le même sens, “mais nous nous arrêtons à la périphérie du réseau. Il s'agit pour nous de faire en sorte que cette vidéo (ou tout autre service cloudifié) soit disponible en bas de l'antenne.

S'appuyer sur OpenStack

Mais pour faire fonctionner des fédérations de plateformes d'informatique utilitaire aussi largement distribuées sur les points de présence réseau et autres infrastructures locales, il faut un système d'exploitation pour la gestion de la ressource. Or un tel système n'existe pas actuellement. L'un des objectifs de l’Inria Project Lab Discovery est donc d'en proposer un. Cela dit, plutôt que de construire un nouvel OS à partir de zéro, les scientifiques ont décidé, là aussi, de s'appuyer sur l'existant. Ils vont modifier l'un des outils initialement développés pour déployer et gérer des infrastructures en tant que service (les ‘IaaS’) sur des sites centralisés. “Nous avons choisi OpenStack. Ce logiciel OpenSource suscite de plus en plus d'intérêt chez les industriels, y compris des grands acteurs comme IBM, Google ou, plus récemment, l’acteur français OVH.

Problème : dans la version actuelle de cet outil, les principaux composants reposent sur des mécanismes centralisés, comme les bases de données MySQL par exemple. “Discovery vise à remplacer tous ces éléments centralisés par des solutions pair-à-pair (P2P) et self-* (3) qui permettront à OpenStack de s'étendre sur de multiples sites. Pour commencer, nous avons ainsi déjà remplacé le composant MySQL par une solution standard NoSQL. En l'occurrence, c'est une approche très connue pour s'affranchir des problèmes d'échelle inhérents aux technologies SQL.” Ce projet suscite “beaucoup de réactions enthousiastes dans la communauté OpenStack. La Fondation OpenStack nous a accueilli très chaleureusement. Elle s'apprête à créer en son sein un groupe de recherche dédié. C'est toute une dynamique qui se met en route.

----
Notes :

* Renater est l’organisme national en charge d'opérer le réseau informatique français reliant les universités et les centres de recherche.

(1) Discovery Lab est un Inria Project Lab. Les IPL sont des projets de grande envergure associant plusieurs équipes de l'institut. Outre les partenaires Orange Labs et Renater, Discovery Lab implique les équipes :  Asap, Ascola, Avalon, Myriads et Kerdata. Adrien Lebre est membre de l'équipe-projet Ascola,  commune à Inria, l'Ecoles des Mines de Nantes, le CNRS et l'Université de Nantes.

(2) Lire : A Ring to Rule Them All - Revising Open-Stack Internals to Operate Massively Distributed Clouds (The Discovery Initiative - Where Do We Are ?) par Adrien Lebre, Jonathan Pastor et Frédéric Desprez, . [Rapport de recherche] RR-480, INRIA. 2016, pp.1-24. <hal-01320235>

(3) Prononcer : self-STAR. Le mot désigne tous les mécanismes autonomes qui permettent à un système de s’auto-adapter à un événement, par exemple pour s’auto-réparer, s’adapter à des contraintes de performance... On parle  alors de self-healing, self-repairing, self-scaling...