Skip to content. | Skip to navigation

Emergences

Lettre d'information n° 49

Image emergences pour impression
Personal tools
You are here: Home 2017 Lettre d'information n° 49 Mieux exploiter les super-calculateurs
Document Actions

Mieux exploiter les super-calculateurs

Les 15 dernières années ont vu émerger des ordinateurs géants qui alignent un nombre de plus en plus impressionnant de cœurs et de nœuds. Mais cette course au gigantisme se heurte à un problème intrinsèque : la masse de données produites à chaque itération devient de moins en moins gérable, jusqu'au point où le système finit par ne plus passer à l'échelle. Intergiciel innovant conçu pour la gestion des données et des entrées/sorties, Damaris permet de désengorger le système en affectant certains nœuds uniquement à l'écriture de données. Comme l'explique Gabriel Antoniu, chercheur au centre Inria Rennes – Bretagne Atlantique, cette méthode permet non seulement de revigorer le calcul haute performance (HPC) mais aussi d'effectuer de la visualisation in situ sans guère impacter la rapidité de la simulation.

Les 15 dernières années ont vu émerger des ordinateurs géants qui alignent un nombre de plus en plus impressionnant de cœurs et de nœuds. Mais cette course au gigantisme se heurte à un problème intrinsèque : la masse de données produites à chaque itération devient de moins en moins gérable, jusqu'au point où le système finit par ne plus passer à l'échelle. Intergiciel innovant conçu pour la gestion des données et des entrées/sorties, Damaris permet de désengorger le système en affectant certains nœuds uniquement à l'écriture de données. Comme l'explique Gabriel Antoniu, chercheur au centre Inria Rennes – Bretagne Atlantique, cette méthode permet non seulement de revigorer le calcul haute performance (HPC) mais aussi d'effectuer de la visualisation in situ sans guère impacter la rapidité de la simulation.

25,000 nœuds. 350 000 cœurs. Un million de milliards de calculs à la seconde au minimum. Treize fois plus en vitesse de pointe. Construit en 2012 pour l'Université d'Illinois et exploité par le National Center for Supercomputing Applications (NCSA), Blue Waters est probablement trois millions de fois plus véloce que l'ordinateur de monsieur Tout-le-monde et assurément l'un des plus gros supercalculateurs sur cette planète. Ce mastodonte refroidi par eau œuvre pour des travaux scientifiques allant de la météorologie à la recherche pharmaceutique. Mais il sert aussi de banc d'essai à de nouvelles méthodes visant à rendre ce type de machines plus efficaces. Et c'est là qu'Inria rentre en jeu.

Blue Waters ©NCSA

“En 2009, Inria et l'université d'Illinois Urbana-Champaign (UIUC) ont fondé le Laboratoire commun pour le calcul à l'échelle extrême (JLESC). Peu après, le Laboratoire national d'Argonne (ANL) puis plusieurs autres centres (1) nous ont rejoints. Par ailleurs, Inria, ANL et UIUC partagent aussi une équipe commune appelée Data@Exascale,” explique Gabriel Antoniu, responsable de KerData, une équipe de recherche spécialisée dans la gestion des données distribuées à l'ère du pétaflop.

Ces montages collaboratifs visent à étudier comment mieux exploiter la puissance des grandes plates-formes de calcul haute performance. Les scientifiques affrontent plusieurs défis. L'un d'entre-eux, et non des moindres, est le fait que les méthodes traditionnelles du calcul haute-performance appliquées telles quelles à ces architectures géantes passent difficilement l'échelle. Un des problèmes clés résulte du gros volume d'entrées/sorties généré par ces systèmes. “Quand vous faites tourner une application de modélisation du climat sur ces plates-formes, cela génère beaucoup d'itérations. On prend une donnée en entrée. On effectue un calcul. On obtient un résultat. On modifie un peu une variable d'entrée. On effectue un nouveau calcul. Et ainsi de suite. A chaque itération, il faut écrire de la donnée quelque part sur un moyen de stockage.

Variabilité imprévisible de la performance

Et c'est là que le bât blesse. “Avec les derniers supercalculateurs, vous avez littéralement des millions de cœurs qui écrivent de la donnée dans autant de fichiers de façon quasiment synchrone.” Double inconvénient : “Le système de fichier subit une forte pression car il peine à écrire autant de données simultanément. De plus, les cœurs doivent attendre que toutes les données soient écrites avant de démarrer la tâche suivante. Mais ils travaillent en synchrone. Ils doivent donc s'attendre les uns les autres.” Résultat : “Si l'un d'eux est en retard, il ralentit toute la machine. On se retrouve ainsi face à une variabilité imprévisible de la performance.” Ce que l'on appelle la gigue.

Complication supplémentaire : les utilisateurs de simulation ont souvent besoin d'un accès aux données à des fins d'analyse ou de visualisation. “Dans les approches traditionnelles, cela s'effectue à un stade ultérieur. On appelle cela du post-traitement. Les données sont transférées vers une autre plate-forme où une autre application extrait les informations qui intéressent le scientifique. Ce transfert prend du temps et consomme de l'espace disque supplémentaire car il faut dupliquer les données. Certes, on pourrait utiliser un seul support de stockage, mais il serait alors soumis à la double pression de la simulation et de la visualisation.

Une façon d'alléger la pression sur le système de stockage consiste à visualiser la donnée avant même de la stocker. Autrement dit quand elle se trouve encore dans la mémoire de l'ordinateur. Cette visualisation ‘in situ’ s'avère fort prometteuse. Mais il y a un hic : si elle utilise la ressource de calcul attribuée à la simulation, elle risque de... ralentir cette dernière.

Asynchronous I/O

Voilà pour le contexte dans lequel s'inscrit Damaris, un outil conçu au départ pour résoudre le problème des écritures de données. “Au lieu d'avoir tous ces cœurs qui écrivent chacun des données, nous nous sommes dit pourquoi ne pas plutôt en prendre quelques-uns et leur confier pour mission d'écrire toutes les données pour le reste du groupe.” Avantage immédiat de cette stratégie : “cela permet de fonctionner en asynchrone. Les cœurs chargés des calculs n'ont plus besoin d'attendre que la donnée soit écrite. Ils peuvent débuter immédiatement une autre tâche à partir de cette donnée qu'ils prennent en entrée directement dans la mémoire de la machine.” Cette approche innovante “augmente fortement le débit des entrées/sorties. Elle masque complètement la variabilité.” Autrement dit, l'écriture des données n'impacte plus les performances de la simulation (3).

Par ricochet, cette percée apporte un autre avantage non négligeable : “une fois que les cœurs ou les nœuds dédiés ont fini d'écrire de la donnée, il leur reste encore un peu de temps. Ce temps, on peut l'employer pour faire quelque chose d'autre. Par exemple... de la visualisation in situ !VisIt et ParaView sont les deux outils de visualisation les plus répandus. “Nous travaillons à les rendre directement utilisables dans Damaris via des plug-ins offrant une connexion transparente. Celui pour VisIt est déjà disponible. Celui pour ParaView va bientôt suivre. Damaris peut aussi aisément s'intégrer dans les applications de simulation à grande échelle par le biais d'une API.” Inria finance actuellement une Action de développement technologique (ADT) visant à industrialiser le prototype de recherche. Une tâche confiée à l'ingénieur Hadi Salimi.

Modélisation de gisements pétroliers

Cet outil innovant donne aussi lieu à une collaboration entre l'équipe KerData et Total. Le groupe pétrolier possède un supercalculateur nommé Pangéa. Ses 200 000 cœurs et ses 6,7 pétaflops le hissent à la 17ème place du Top500 mondial. Ce qui en fait au passage l'ordinateur le plus puissant dans l'industrie au niveau mondial. “Total effectue beaucoup de simulation pour ses études géologiques et la construction de modèles des gisements de pétrole et de gaz. Dans ce contexte, la visualisation in situ est très utile. Nous travaillons actuellement sur l'implémentation de Damaris pour les applications du groupe.

Et pendant ce temps-là, la course au supercalcul continue de plus belle. Plusieurs pays annoncent leur passage imminent à l'ère de l'exaflop. Autrement dit, le trillion : un milliard de milliards d'opérations à la seconde.

 

-----
Notes :

(1) Les autres membres sont : BSC, JSC et RIKEN-AICS. Au départ, le laboratoire était dirigé par Franck Cappello (Inria) et  Mark Snir  (UIUC). Tous deux travaillent aujourd'hui pour ANL.

(2) Kerdata est une équipe-projet Inria, Insa-Rennes, ENS Rennes et Université Rennes 1 commune à l'Irisa.

(3) Cette recherche a été menée dans le cadre de la thèse de Matthieu Dorier : Addressing the Challenges of I/O Variability in Post-Petascale HPC Simulations. Pour ces travaux, Matthieu Dorier a reçu un accessit du prix de thèse Gilles Kahn 2015.