Le CERN mise sur une base autonome pour explorer ses données de contrôle

Le laboratoire de recherche européen, spécialisé dans la physique des particules, a choisi de déployer Oracle Autonomous Datawarehouse (ADW) pour faciliter l'exploration des données de contrôle du grand collisionneur de hadrons.
PublicitéMesurant plus de 27 kilomètres de circonférence, le grand collisionneur de hadrons (LHC) est le plus vaste accélérateur de particules dans le monde à l'heure actuelle. Il compte plus de 9000 aimants supraconducteurs, fait tourner les particules 11245 fois par seconde et peut atteindre une température plus de 100 000 fois supérieure à celle régnant au centre du soleil. Le LHC possède actuellement sept types de détecteurs installés dans quatre sites, les principaux étant ATLAS, CMS, Alice et LHCb.
Pour surveiller et contrôler l'ensemble de ce dispositif, de nombreux équipements de contrôle ont été déployés, notamment des capteurs IoT (Internet des Objets). Ceux-ci mesurent de multiples paramètres, comme la cryogénie, le vide, les radiations ou encore la consommation en énergie. Chaque jour, près de 2,5 To de données de contrôle sont ainsi remontés par ces infrastructures.
Mieux valoriser les données historiques
Pour traiter ces données, le CERN a initialement mis en place un système de logging dénommé CALS (CERN Accelerator Logging Service). Celui-ci se base sur deux clusters de bases Oracle relationnelles sur site. Un premier cluster, MDB, sert de buffer : il se charge de collecter et de filtrer les données brutes avant de les envoyer vers le second cluster, LDB. Celui-ci regroupe plus de 20 ans de données filtrées. La base LDB est aussi alimentée en direct par certains équipements, dont les données n'ont pas besoin de filtrage et sont traitées en temps réel. Si la taille du buffer est assez fluctuante, elle s'élève en moyenne à 80 To, tandis que LDB stocke plus d'un Po de données. « Ce système a plusieurs avantages », témoigne Sébastien Masson, administrateur de bases de données au CERN. « Il est à la fois simple et robuste, efficace pour l'analyse en temps réel et adapté au contrôle d'équipements opérationnels critiques. » En revanche, ce service de logging atteint ses limites pour les activités d'exploration d'ensembles volumineux de données.
Souhaitant mieux valoriser l'historique important dont il dispose, le CERN a par la suite décidé de mettre en place un environnement de Big Data, dénommé NXCALS, basé sur des technologies comme Hadoop et Spark. « Cette plateforme perdait les avantages de la précédente : c'est un ensemble de technologies assez complexe à gérer, nécessitant des efforts importants sur le développement comme sur l'administration, et elle ne permettait pas un accès en temps réel », observe Sébastien Masson.
Une plateforme conciliant les avantages des deux précédentes
Pour ces raisons, le CERN a décidé fin 2019 d'étudier une troisième option, dans le cadre de son programme de partenariat public-privé CERN openlab. L'organisation a choisi d'évaluer la technologie Oracle Autonomous Datawarehouse (ADW), dans l'idée de pouvoir concilier les deux usages : surveillance opérationnelle et exploration. ADW est un entrepôt de données autopiloté et autoadministré dans le Cloud, basé sur une infrastructure Exadata. « Le point fort de cette solution, c'est sa capacité à s'adapter à l'utilisation que l'on souhaite en faire », explique l'administrateur, qui a travaillé sur ce projet avec deux coéquipiers. Le système convient à la fois pour l'accès en temps réel aux données de contrôle et l'exploration de données, tout en présentant l'avantage d'être compatible avec les applications existantes. « Pour nous, c'est un changement de paradigme. Auparavant, chaque système était d'emblée dimensionné en fonction de l'usage envisagé le plus important. Là, nous avons pu démarrer en chargeant 1 To de données, pour passer progressivement à 20 To ».
PublicitéLes données brutes issues des capteurs sont collectées dans un fichier Parquet. Leur transfert dans le Cloud s'appuie sur deux dispositifs : une API pour le transfert au fil de l'eau et une appliance installée dans le datacenter du CERN. « Ce système d'appliance est une solution efficace pour la reprise de données : les données sont chargées localement, puis l'appliance est envoyée à Oracle qui les transfère sur le Cloud », détaille l'administrateur. Les données Parquet sont ensuite stockées dans une base orientée objet (Oracle Object Store) afin de rationaliser les coûts de stockage, tandis que d'autres données sont stockées dans la base ADW. Grâce au système de partitionnement, les fichiers parquets sont vus comme des tables externes depuis ADW, et peuvent être requêtés de la même façon que les autres tables.
Des performances appréciées
Les premiers indicateurs sur ce projet montrent des temps de réponse très satisfaisants. Autre atout, les utilisateurs peuvent profiter des fonctionnalités d'Oracle Analytics Cloud pour l'exploration de données. « L'intégration et le provisioning s'effectuent en un clic » apprécie Sébastien Masson. Une fois la nécessaire phase de familiarisation passée, l'équipe n'a guère rencontré de difficultés, hormis quelques enjeux sur le transfert de fichiers, qui au début s'effectuait avec des tunnels SSH. Ces enjeux se sont résorbés depuis la mise en oeuvre des systèmes de transfert décrits plus haut. Selon les chiffres fournis par Oracle, le coût mensuel d'une telle solution pour 10 CPU et 1 To s'élève à 1214 € pour un fonctionnement en 24*7, mais il descend à 435 € par mois pour 10h par jour sur 5 jours.
Le CERN a également testé l'autre base autonome d'Oracle, Autonomous Transaction Processing, pour le système d'accueil de ses 90 000 visiteurs annuels, une expérience là aussi qualifiée de très satisfaisante par l'équipe.
Article rédigé par

Aurélie Chandeze, Rédactrice en chef adjointe de CIO
Suivez l'auteur sur Linked In,
Commentaire
INFORMATION
Vous devez être connecté à votre compte CIO pour poster un commentaire.
Cliquez ici pour vous connecter
Pas encore inscrit ? s'inscrire