Des données du LHC rendues publiques dans le cadre d’un projet pédagogique

CMS a recueilli à ce jour près de 64 pétaoctets de données proton-proton analysables. Ces données, tout comme les articles publiés, font partie du patrimoine scientifique de la collaboration CMS ; il est donc crucial de les préserver pour les générations futures.

 

Des lycéens analysent les données de CMS. Photo : Marzena Lapka.

« Pour préserver non seulement les données, mais également les informations sur la manière de les utiliser, nous avons l’intention de mettre en accès libre les données qui ne font plus l'objet d'une analyse active», explique Kati Lassila-Perini, de l’Institut de physique d'Helsinki, responsable du projet de préservation des données CMS et de libre accès aux données.

Le fait de mettre à la disposition de tous des données scientifiques permet théoriquement à tout un chacun d’effectuer ses propres analyses, mais ce travail est très difficile. Des scientifiques de CMS travaillant en groupe peuvent mettre des mois, voire des années à réaliser une seule analyse. De plus, chaque analyse doit être vérifiée par l’ensemble de la collaboration avant qu’un article scientifique puisse être publié.

CMS a donc décidé de lancer un projet pilote à visée pédagogique concernant ses données en accès libre. Ce projet, réalisé en partenariat avec le Centre informatique pour la science (CSC) de Finlande et partiellement financé par le ministère finlandais de l’Éducation et de la Culture, intégrera les données de CMS dans le curriculum de physique des établissements secondaires du pays.

Les données de CMS sont classées en quatre catégories, par ordre de complexité croissante. La catégorie 1 concerne les données figurant dans les publications de CMS. La catégorie 2 correspond à de petits échantillons de données choisis pour des programmes pédagogiques; ces échantillons permettent aux élèves d'avoir une idée de la façon dont on procède pour les analyses de physique, mais ils ne permettent pas de réaliser une analyse approfondie.

La catégorie 3 correspond à ce qu’utilisent les scientifiques de CMS: les éléments proposés sont des représentations des données, ainsi que des simulations, de la documentation et des outils logiciels. CMS met à la disposition du public ces données analysables, ce qui est une première en physique des particules. La catégorie 4 couvre les données dites « brutes », c’est-à-dire les données de collision originales sans identification des objets de physique tels qu’électrons et jets de particules. Ces données ne seront accessibles qu’aux membres de la collaboration.


Exemple de données de catégorie 2 utilisées dans l'affichage d'un événement en ligne. Photo : Achintya Rao/Tom McCauley.

CMS souhaite permettre aux personnes extérieures à la collaboration de construire des outils pédagogiques en exploitant ses données ; toutefois, pour réaliser une analyse de physique, il faut beaucoup de capacité de stockage numérique et des installations de calcul réparties. « Si quelqu’un veut télécharger nos données pour les utiliser dans un exercice, explique Kati Lassila-Perini, on ne peut pas lui dire de commencer par télécharger l’environnement de machine virtuelle, de vérifier que cela fonctionne, etc. C’est pourquoi nous avons besoin de centres de données comme le CSC qui serviront de fournisseurs intermédiaires pour des applications reproduisant à petite échelle notre environnement de recherche. »

La Finlande se trouve dans une situation idéale pour piloter ce programme. 75 % des établissements secondaires de Finlande comptent des classes ayant eu l’occasion de visiter le CERN et, grâce au programme destiné aux enseignants du secondaire, beaucoup de professeurs connaissent déjà les bases de la physique des particules. Une enquête est actuellement menée auprès des enseignants afin de mieux connaître leur point de vue sur l'enseignement de l'analyse des données, et de recueillir quelques idées qui pourraient être mises en application.

Et Kati Lassila-Perini voit grand. « On peut imaginer un répertoire de données de physique des particules auquel les établissements scolaires auraient accès, explique-t-elle. Ils collaboreraient avec d’autres établissements pour développer du code et faire des analyses. Cela ressemblerait beaucoup à ce que nous faisons. Il est important d’enseigner non seulement la science, mais aussi la façon dont la science avance : la physique des particules ne se fait pas de façon isolée, c’est un travail mené en commun par des équipes. »

Les données du LHC dans la salle de classe

Les données du LHC sont également exploitées dans le cadre des « Masterclasses » du CERN. Ce programme utilise pour des exercices d’analyse des données expérimentales réelles issues des expériences ATLAS, LHCb, CMS et ALICE.

 

par Achintya Rao