Gestion des données : nouvelles solutions en vue

Presque toutes les grandes expériences scientifiques, y compris celles menées au CERN, gèrent leurs données à l’aide de bases de données relationnelles, accessibles à partir du langage de programmation SQL (Structured Query Language). Toutefois, la progression constante du volume de données amène à remettre en question cette solution.

 

De nouveaux types de bases de données, appelées NoSQL, pourraient offrir la possibilité d’accéder à de grandes quantités de données d’une façon différente. Les langages utilisés en NoSQL, bien moins compliqués, facilitent la configuration initiale. En outre, il est possible avec NoSQL de stocker les données d’une manière plus souple et, ainsi, d’y accéder et de les gérer plus rapidement.

Le groupe Bases de données du CERN, au sein du département IT, procède actuellement à des tests à petite échelle de solutions NoSQL sur trois des quatre grands détecteurs (CMS, ATLAS et LHCb). Au cours des derniers mois, des fournisseurs de bases de données non relationnelles – notamment Google, Hadapt et Oracle – ont également présenté leurs produits au département IT.

« Nous utilisons la base de données relationnelles Oracle depuis 30 ans, indique Tony Cass, chef du groupe Bases de données du CERN. Oracle n’est pas seulement utilisé dans des applications administratives, comme la plupart des gens l’imagine. Il faut savoir que ce logiciel a d’abord été mis en place pour appuyer la construction et l'exploitation du Grand collisionneur électron-positon (LEP). Aujourd’hui, si Oracle ne fonctionne pas, le LHC ne fonctionne pas non plus. »

« Les bases de données Oracle du CERN ont été fortement optimisées en vue d’une plus grande rapidité de traitement ; il faut du temps et du savoir-faire pour les adapter à de nouvelles requêtes sous Oracle, poursuit Tony. En revanche, créer des solutions NoSQL pour une nouvelle application se fait souvent très rapidement. »

« Certaines bases de données NoSQL sont plus adaptées à certains problèmes, explique Simon Metson, responsable de l’équipe chargée de la gestion des données et des processus à CMS, qui a procédé l’année dernière aux tests de mise en œuvre de bases de données NoSQL. Avec NoSQL, il n’est pas nécessaire d’écrire beaucoup de nouveau code pour gérer les données. »  

Pour l’instant, personne n’a fait de comparaison sur des données à grande échelle au CERN.  Sait-on si une solution NoSQL sera plus rapide ? Non, pas pour l’instant. « D’ici un an, nous aurons une meilleure compréhension des différentes implémentations de NoSQL, et nous verrons petit à petit ce qui convient », conclut Tony.

Il s’agit d’une version adaptée d’un article paru pour la première fois dans iSGTW ; cliquez ici pour lire l’article entier (en anglais).

par Adrian Giordani