Skip to content. | Skip to navigation

Emergences

Lettre d'information n° 40

Image emergences pour impression
Personal tools
You are here: Home 2016 Lettre d'information n° 40 Des pépites dans les données
Document Actions

Des pépites dans les données

Paradoxe : l'économie numérique génère des volumes d'information toujours plus vertigineux mais l'exploitation intelligente de ces données peine à suivre. De fait, le data mining se heurte au manque criant d'outils adaptés. Ce que l'on appelle aussi la découverte de connaissances dans les données repose encore bien souvent et avant tout sur des traitements manuels. Au centre Inria Rennes - Bretagne Atlantique, une équipe scientifique dirigée par Alexandre Termier étudie de nouvelles approches pour non seulement automatiser ce process mais aussi pour améliorer la visualisation des résultats et confier un meilleur rôle à l'utilisateur.

Paradoxe : l'économie numérique génère des volumes d'information toujours plus vertigineux mais l'exploitation intelligente de ces données peine à suivre. De fait, le data mining se heurte au manque criant d'outils adaptés. Ce que l'on appelle aussi la découverte de connaissances dans les données repose encore bien souvent et avant tout sur des traitements manuels. Au centre Inria Rennes - Bretagne Atlantique, une équipe scientifique dirigée par Alexandre Termier étudie de nouvelles approches pour non seulement automatiser ce process mais aussi pour améliorer la visualisation des résultats et confier un meilleur rôle à l'utilisateur.

Notre métier ? Inventer des outils pour aider les gens à explorer leurs données et y trouver des informations dont on ignorait jusqu'à l'existence, résume Alexandre Termier, responsable de l'équipe de recherche Lacodam (1). Donnez-nous les tickets de caisse d'un supermarché sur deux ans. En les parcourant, nous pourrions découvrir, par exemple, que les clients faisant l'emplette de yaourts nature sont aussi ceux qui achètent des poireaux, des pommes Golden ou que sais-je encore. L'exploration de données est un domaine qui a le vent en poupe, en particulier depuis l'apparition du fameux big data.

De fait, “les entreprises produisent aujourd'hui d'énormes quantités d'informations qui mériteraient d'être analysées. Mais encore faut-il que l'on parvienne à y trouver des connaissances nouvelles et vraiment utiles. Si l'exploration ne fait apparaître que des évidences, l'industriel n'y verra aucun intérêt. Par ailleurs, ce travail de fouille, en lui-même, n'est pas facile. Il n'existe pas encore de bouton magique sur lequel les utilisateurs pourraient appuyer afin d'explorer efficacement leurs données. Mais nous espérons pouvoir leur en fournir un dans les années qui viennent.

Un des principaux problèmes résulte de la masse d'informations à traiter. “Reprenons l'exemple du supermarché. Si je cherche toutes les combinaisons de produits qui se répètent dans les tickets de caisse, cela peut représenter des millions de résultats. Donc beaucoup de calcul en perspective et des temps de traitement très longs pour découvrir ces motifs.  Dans les dernières années, les scientifiques ont développé ParaMiner. Capable d'exploiter simultanément la puissance de multiples processeurs grâce au calcul parallèle, ce logiciel de recherche de motifs réduit les temps d'exécution de manière significative. “Dans certains cas, nous gagnons deux ordres de grandeur en temps d'exécution.

Malgré ces progrès, le déluge d'informations demeure un défi titanesque. “Nous travaillons, par exemple, avec Genscale, une équipe de bio-informaticiens au centre Inria de Rennes. À la sortie des séquenceurs d'ADN, ils récupèrent des données génomiques tellement compliquées qu'elles mettent à genoux tous nos algorithmes. Y compris certains dont j'étais très fier jusqu'à présent. Aucun ne passe l'échelle.  Explication ? “La complexité de nos algorithmes est exponentielle en fonction du nombre de colonnes dans les matrices à traiter. Elle double à chaque fois que l'on ajoute une colonne. À la 20 000ème, l'outil étouffe. Puis capitule. Or, en bio-informatique, le nombre de colonnes peut monter à... plusieurs millions !

Autre grand défi : la généricité. “Bien souvent, les algorithmes de data mining résultent d'une optimisation spécifique en fonction de ce pourquoi ils sont conçus. Ils conviennent mieux pour certaines tâches que pour d'autres. Ils fonctionnent plus ou moins bien selon la nature des données. À l'utilisateur donc de choisir le plus approprié.” Et c'est là que les choses se compliquent. “Avant de pouvoir ré-employer un algorithme développé par un tiers, l'utilisateur va devoir adapter lui-même cet outil spécialisé en fonction de ce qu'il souhaite vraiment en faire sur son propre jeu de données. Or ce travail de personnalisation est insupportablement difficile.

Accéder à l'algo-diversité

Conséquence : les utilisateurs n'exploitent en réalité qu'une faible partie de la panoplie d'outils disponibles. “Nous avons un magnifique zoo d'algorithmes. Mais personne ne le visite. Les gens s'arrêtent à la première cage.  À savoir ? “Les algorithmes d'itemsets fréquents. Ce sont ceux qui servent à trouver les répétitions dans les données. Ceux-là, tout le monde les connaît. Tout le monde s'en sert. Ils sont d'ailleurs intégrés dans les logiciels des grands éditeurs. Le reste, en revanche, demeure complètement ignoré. Et je le regrette fort. Car il existe des outils bien plus riches qui permettent de faire des choses beaucoup plus expressives !” Les chercheurs étudient un logiciel qui permettrait donc à l'utilisateur final d'accéder plus facilement à toute cette algo-diversité. Ce cadre unificateur prendrait tous les composants du flux de traitement et permettrait de les utiliser à la carte. On pourrait ainsi sélectionner l'algorithme qui convient le mieux pour une certaine tâche et un certain jeu de données. Autrement dit : “un algorithme pour les contrôler tous.

Autre point dur : “Les algorithmes sont trop peu discriminants car l'utilisateur ne parvient pas à fournir une définition suffisamment précise de ce que l'outil doit chercher.” Alors comment faire ? “Une option consiste à aider cet utilisateur à produire une définition plus discriminante. Il existe aussi des méthodes un peu mécaniques pour essayer de mettre en avant les motifs dont on suppose qu'ils sont les plus intéressants à montrer. Sur cette idée, nous avons une collaboration avec le fabricant de puces STMicroelectronics.” L'enjeu : “aider les développeurs à repérer les bugs sur les processeurs. Pour cela, il faut explorer les traces, c'est à dire le registre détaillé des exécutions.” Pas facile de repérer manuellement l'information pertinente dans pareille masse de données ésotériques. “Nous testons des techniques d'optimisation pour trouver par exemple un ensemble de dix motifs qui permettraient de ré-écrire au mieux la trace de façon à ce que le développeur puisse mieux la visualiser et ainsi gagner un temps considérable.

Au-delà de cet effort multiforme pour automatiser le traitement des donnés à différents stades du flux de production, l'équipe Lacodam ambitionne également d'introduire une approche s'appuyant directement sur l'utilisateur. Ce qui constituerait une première en data mining. “Le plus souvent, les gens doivent travailler dur avant de pouvoir, enfin, commencer à trouver des connaissances dans leurs données. Mais leur contribution n'est pas vraiment exploitée comme elle devrait l'être. Elle est perdue à la fin de chaque traitement. L'utilisateur ne profite donc pas de l'expérience des autres. Nous voudrions en faire un acteur de premier ordre et profiter de la connaissance qu'il possède de son domaine. Nous envisageons une plateforme internet qui serait massivement collaborative. Les analystes de tous secteurs pourraient se connecter, apporter leurs connaissances, améliorer un jeu de données, signaler les meilleurs flux de traitement...” Ce mouvement collectif ferait diminuer d'autant les tâches actuellement requises au niveau individuel. “Le fait de combiner ainsi les contributions en connaissances et le feedback sur les options de traitement enrichirait beaucoup notre système.

 

- - - - - -
Notes :

(1) Lacodam est une équipe de recherche Inria, Insa Rennes et Université Rennes 1, commune à l'Irisa (UMR 6074). Elle succède à l'ancienne équipe Dream.

 (2) Lire : ParaMiner: a Generic Parallel Pattern Mining Algorithm, par Benjamin Negrevergne, Alexandre Termier, Marie-Christine Rousset et Jean-François Mehaut. 

 

L'équipe Lacodam. Debout de gauche à droite : Torsten Schaub, Louis Bonneau de Beaufort et Philippe Besnard. Assis, de gauche à droite : Yann Dauxais, Thomas Guyet, René Quiniou,Yves Moinard, Marie-Odile Cordier, Christine Largouët, Véronique Masson, Alexandre Termier et Serge Emteu. Absents sur la photo : Laurence Rozé, Clément Gautrais et Benjamin Négrevergne.