CMS publie un nouvel ensemble de données ouvertes

CMS publie 300 To de données LHC de haute qualité sur le portail de données ouvertes du CERN.

 

Un événement de collision de CMS tel qu'affiché sur le portail de données ouvertes du CERN. (Image : CERN)

La collaboration CMS a publié 300 téraoctets (To) de données LHC de haute qualité sur le portail de données ouvertes du CERN.

Les données de collisions sont de deux types : d’une part, les « données brutes » (primary datasets), qui ont le même format que celui utilisé par CMS pour ses recherches, et, d’autre part, les « données dérivées » (derived datasets), qui nécessitent une puissance de calcul beaucoup moins importante et peuvent être analysées facilement par des élèves du secondaire ou des étudiants.

CMS a aussi mis en ligne les données de simulation générées avec la même version logicielle que celle utilisée pour l’analyse des données brutes. Les simulations sont essentielles à la recherche en physique des particules et CMS a également mis à disposition les protocoles permettant de les générer. Les ensembles de données publiés sont accompagnés d’outils d’analyse et d’exemples de code adaptés.

Les données sont mises à la disposition du public conformément à l’engagement pris par CMS pour leur préservation à long terme et à sa politique en matière de données ouvertes.

« Les membres de la collaboration CMS travaillent beaucoup et mobilisent des milliers d’heures-hommes dans chaque service pour exploiter le détecteur et collecter ces données à des fins d’analyses, explique Kati Lassila-Perini, physicienne à CMS et coordinatrice des travaux pour la préservation des données. Cependant, une fois ces données analysées, nous ne voyons pas pourquoi nous ne les mettrions pas à la disposition du public. Cela permet à la fois de donner envie à des élèves de s’intéresser à la physique et de former les physiciens des particules de demain. Personnellement, en tant que coordinatrice de la préservation des données à CMS, je trouve que c’est essentiel pour assurer la disponibilité à long terme de nos données de recherche. »

L’intérêt de la mise à disposition des données du LHC a déjà été démontré avec la publication de précédents ensembles de données. Un groupe de théoriciens du MIT (Massachussetts Institute of Technology) souhaitait étudier la sous-structure des jets : des gerbes hadroniques enregistrées par le détecteur CMS. Les scientifiques de CMS n’ayant pas effectué de recherches sur la question, les théoriciens les ont contactés pour leur demander conseil sur la manière de procéder. Un partenariat fructueux est ainsi né entre des théoriciens et CMS sur les données ouvertes de la collaboration.

Pour en savoir plus, consultez la page relative aux données ouvertes de CMS sur le portail de données ouvertes du CERN.


Une version plus longue de cet article a été publiée sur le site web de CMS (en anglais).

par Achintya Rao