Une autre façon de gérer de grandes quantités de données

Jeff Hammerbacher est vice-président du secteur Produits et responsable scientifique à Cloudera, fabricant de logiciels aux États-Unis qui recherche des solutions pour la gestion et l’analyse d’ensembles de données très vastes. La conférence qu’il a été invité à donner le 21 août a été l’occasion de rencontrer les experts du CERN qui s’attaquent à des problèmes similaires.

Bien que relativement jeune, Jeff a une longue expérience du développement d’outils permettant de stocker et traiter de grandes quantités de données. Avant Cloudera, Jeff a conçu, mis sur pied et dirigé l’équipe chargée des données à Facebook, et il a également été analyste quantitatif à Wall Street. Jeff est titulaire d’un diplôme de mathématiques de l’Université de Harvard.

Au CERN, traiter de grandes quantités de données est la tâche de la Grille de calcul. Hadoop, le logiciel développé par Cloudera, va fonctionner à la même échelle. « Les produits logiciels de grille sont conçus pour permettre à de nombreuses organisations de collaborer de façon à réaliser une analyse de données à grande échelle via un grand nombre de centres de données. Au contraire, Hadoop est conçu pour optimiser le stockage et le traitement de données à grande échelle pour une seule organisation au moyen de nombreux serveurs regroupés dans un seul centre de données, explique Jeff. Nous n’utilisons pas de logiciel de grille à Cloudera. Néanmoins, à l’Université du Nebraska-Lincoln, ils exportent des données stockées dans des grappes Hadoop vers une grille via le logiciel GridFTP (voir http://www.cloudera.com/blog/2009/05/01/high-energy-hadoop/). Il est donc possible que des grappes Hadoop servent de site unique au sein d’une grille plus importante.

Beaucoup de travail de recherche et développement a été effectué dans plusieurs laboratoires de physique des hautes énergies pour résoudre le problème des flux de données toujours croissants. Le LHC sera un banc d’essai très puissant, avec les 15 pétaoctets de données qu’il produira tous les ans. « À Cloudera, nous sommes en contact étroit avec plusieurs laboratoires de physique des hautes énergies stockant des centaines de téraoctets de données dans HDFS, l’élément de stockage du logiciel Hadoop. À l’heure actuelle, HDFS est installé sur deux sites de niveau 2 de CMS aux États-Unis, deux sites de niveau 3 de CMS, et un site de grille sans rapport avec le LHC, explique Jeff. Étant donné le succès de Hadoop sur d’autres sites, nous sommes certains que les experts du CERN verront un intérêt à utiliser ce logiciel. »

Contrairement à de nombreux autres fabricants de logiciels, Cloudera a pour principe de fournir des logiciels en open source. Pourquoi ? « D’après mon expérience, une équipe pleine de talent mais travaillant isolément ne peut pas produire des logiciels exceptionnels, explique Jeff. On a besoin d’un problème difficile pour stimuler la créativité. Rendre le code accessible est la meilleure façon d’exposer le logiciel à des utilisateurs exigeants et à des problèmes difficiles. Élaborer une carte de tous les documents et liens existant sur le web était un problème colossal que Yahoo! a pu résoudre avec Hadoop, et le projet est désormais bien meilleur de ce fait. De même, construire un magasin de données de plusieurs pétaoctets avec des centaines d’utilisateurs est un problème que Facebook a pu résoudre avec Hadoop, et tous les utilisateurs bénéficient à présent de cette contribution.

D’autre part, si nous privilégions le logiciel en open source, c’est parce que nous croyons à l’honnêteté intellectuelle et à la transparence. Vous pouvez dans tous les cas télécharger le code source de notre version et essayer vous-même. L’équipe de Yahoo! a fait un travail remarquable d’évaluation des performances de Hadoop (et à cette occasion a battu des records du monde), tout en mettant à la disposition de tous le code d’évaluation et la configuration Si vous devez stocker des pétaoctets de données pendant de nombreuses années, ce type de transparence est crucial. À cet égard, il est tout aussi important d’avoir un open source que de pouvoir reproduire les expériences scientifiques. »

La visite de Jeff au CERN a été l’occasion d’entamer une collaboration informelle entre le CERN et Cloudera. « Nous sommes tous accros aux données ici ; venant d’entreprises comme Google, Facebook et Yahoo!, nous sommes toujours à l’affût de problèmes informatiques à résoudre – et on peut difficilement trouver une masse de données plus énorme que celle du LHC » conclut-il.

L’enregistrement vidéo de la présentation de Jeff Hammerbacher au CERN

Le Bulletin
du CERN