Les défenseurs de données

Le projet DPHEP (HEP Data Preservation Initiative), qui rassemble instituts de physique des hautes énergies (HEP), collaborations et organismes de financement, a entrepris de changer la façon de sauvegarder l’information.

 

Lorsqu’on parle de préservation des résultats de physique, on pense en premier lieu aux données brutes. En fait, cela va bien au-delà, puisqu’elle implique aussi la sauvegarde des logiciels utilisés. En effet, une fois les expériences terminées, les données doivent rester non seulement disponibles, mais aussi interprétables. Supposons qu’une nouvelle théorie soit élaborée, ou qu’une nouvelle découverte soit faite, et que nous devions réexaminer les anciennes données à la lumière des nouveaux éléments dont on dispose. Si cela devait se produire dans 5, 10, ou 50 ans, comment s’assurer qu’elles restent accessibles dans leur intégralité ?

En 2009, des collaborations au CERN, au DESY, au SLAC et au FNAL avaient fait la même remarque : les collisionneurs arrivaient en fin de parcours, et si aucune action n’était entreprise, leurs données seraient perdues à jamais. Des laboratoires et des expériences du monde entier se sont attaqués au problème en formant un groupe d’étude, le DPHEP. Celui-ci a publié un plan d’action détaillé attirant l’attention de la communauté HEP sur cette question, devenue désormais prioritaire. « La priorité était de faire en sorte qu’aucune donnée ne soit perdue, ce qui s’était déjà produit plusieurs fois par le passé », explique Cristinel Diaconu, président de l’initiative DPHEP.

« Nous avons une idée claire du problème, pourtant, bien que de nombreux projets proposent des solutions pour des questions similaires, ce type de projet n’a pas encore été adopté pour la communauté HEP, observe Jamie Shiers, membre du département Informatique du CERN et actuel chef de projet du DPHEP. C’est là que nous intervenons. En effet, notre projet offre un appui et des ressources informatiques, mais aussi, et c'est là le plus important, il propose de changer notre modèle de préservation des données. Nous savons déjà que nous pouvons conserver les bits, mais à moins que des physiciens ne participent à ce projet, personne ne saura quoi en faire ! Il faut se soucier de la conservation des données dès le début d’une expérience tout en se projetant, si possible, des décennies plus tard. » De nombreux organismes de financement exigent à présent que tout nouveau projet dispose d’un plan de gestion des données et des logiciels qui prévoit leur sauvegarde. Il y a donc maintenant également une motivation financière à le faire.

Une des solutions proposées par le projet DPHEP est de mettre en place un système de certification pour la préservation des données, basé sur les normes de l’industrie, pour tous les projets des expériences. « Au lieu d’insister sur un seul aspect de la préservation des données, la certification s’attacherait à vérifier l’accessibilité totale des données selon une série de critères objectifs », précise Jamie Shiers.

La technologie change si rapidement que, quel que soit le matériel utilisé, la solution proposée aujourd’hui risque fort d’être dépassée demain. Cela dit, les machines virtuelles (VM) semblent être une option pleine de promesses. « CernVM prend un instantané de l’environnement logiciel de chaque expérience, explique Jamie Shiers. Cela peut être utile pour conserver des données, avec des instantanés qui seront organisés en ensembles et accessibles dans un futur lointain. Le premier projet pilote utilisant CernVM est en train d’assembler certaines des données et des environnements logiciels de CMS datant de 2010. Nous voulons montrer que les machines virtuelles fonctionnent sur le long terme, et dans cinq ans nous vérifierons les ensembles pour voir s'il y a eu des problèmes. » L’ensemble des données CMS sera mis à la disposition du public dans le cadre des activités de communication grand public du 60e anniversaire du CERN. Des projets similaires sont prévus pour les expériences ATLAS, ALICE et LHCb.

par Katarina Anthony