Comment la Suisse s'appuie sur la donnée génomique pour personnaliser sa médecine
La Suisse s'est lancée dans un vaste programme de médecine personnalisée, qui s'appuie notamment sur le séquençage du génome. Un programme qui manipule de vastes volumes de données, traitées au sein de deux pipelines bâtis par le Health 2030 Genome Center de Genève.
PublicitéProposer à chaque citoyen une médecine personnalisée, adaptée non seulement à ses antécédents mais également à son patrimoine génétique : c'est l'ambition du programme suisse Health 2030. Au sein de ce vaste effort à l'échelle d'un pays, le Health 2030 Genome Center porte le bras génomique du programme, en réalisant du séquençage, de la préparation de données et certaines tâches d'analyse. Des projets qui ciblent tant les besoins cliniques, comme le diagnostic rapide pour des enfants en soins intensifs pour un hôpital, que la recherche, par exemple autour de la détection des cellules cancéreuses ou du séquençage des variants du Covid-19.
L'ensemble du dispositif - du séquençage à la distribution de données, en passant par la partie analyse et interprétation et les étapes de contrôle et de vérification - est évidemment supporté par un système d'information soumis à des contraintes spécifiques. « L'un des enjeux centraux réside évidemment dans la confidentialité et l'intégrité des données, car nous disposons des certifications pour produire des résultats utilisables lors des phases de diagnostics médicaux, observe Arnaud Hungler Head of IT du Health 2030 Genome Center. L'autre caractéristique de notre activité, c'est la taille des données que nous manipulons. Le séquençage complet d'un génome humain génère 200 Go de données. »
Séparer les échantillons, les mapper sur le génome humain
Pour traiter ces données, le centre helvétique a mis en place un premier pipeline. En entrée, les échantillons transmis par les hôpitaux ou universités passent dans le séquenceur. « Mais ce processus est très coûteux ; il faut compter 15 000 euros environ par séquençage. On regroupe donc les échantillons pour diminuer le coût unitaire », précise Arnaud Hungler. Conséquence : en sortie, les données passent par une étape de démultiplexage, qui permet de séparer les différentes analyses. Puis les données sont ordonnées lors d'une étape de mapping, consistant à replacer chaque séquence au bon endroit dans le génome humain. Enfin, ces résultats sont comparés à une moyenne, pour l'instant mondiale. « Ce qui pose des problèmes de référence », souligne Arnaud Hungler, cette moyenne ne représentant pas parfaitement le patrimoine génétique moyen de la population suisse. Un constat qui a donné naissance au projet Genome of Switzerland, qui vise à séquencer 1 000, puis 15 000 et potentiellement un million de génomes de citoyens suisses.
Arnaud Hungler, Head of IT du centre génomique : « le séquençage complet d'un génome humain génère 200 Go de données. »
Chaque étape de ce pipeline est associée à un contrôle qualité, permettant de qualifier le niveau délivré car ces résultats sont ensuite accessibles aux chercheurs et/ou cliniciens. « Même si nous ne sommes pas le data owner en l'espèce, nous conservons également un contrôle strict de qui accède à quelles données », précise le responsable IT. L'ensemble de ce pipeline tourne sur un cluster interne Dell de 20 noeuds de calcul. Du fait de la sensibilité des données qu'il manipule, le Health 2030 Genome Center écarte en l'état tout recours au cloud.
PublicitéIntégrer l'analyse pour limiter les transferts de données
Ce mode de fonctionnement nécessite toutefois le transport de très grands volumes de données jusqu'aux hôpitaux ou centres de recherche. D'où la construction d'un second pipeline, qui, plutôt que d'envoyer 200 Go pour chaque analyse, vise à intégrer la phase d'analyses, via une plateforme spécialisée fournie par l'éditeur britannique Congenica. « Dans ce modèle, nous restituons une dataviz permettant d'explorer les données issues du séquençage et nous intégrons une partie des traitements sur ces données, comme des filtres », précise Arnaud Hungler. Au sein de ce second pipeline, hébergé sur un second cluster Dell, le centre génomique a aussi recours aux machines de Pure Storage pour des questions de performances, de flexibilité, mais aussi de simplicité d'exploitation. « Car je suis seul à l'IT », indique Arnaud Hungler.
Autant de caractéristiques que n'offrait pas le stockage bloc exploité auparavant. Sans oublier la question des performances : « depuis la mise en production de la solution Pure Storage, le stockage n'est clairement plus le goulet d'étranglement sur ce pipeline », indique le responsable IT. La vitesse de téléchargement de données depuis l'extérieur a ainsi été multipliée par deux, tandis que celle des transferts internes a bondi d'un facteur dix. Encore en phase projet, ce second pipeline attend une extension d'accréditation qu'a demandée le centre génomique avant d'entrer en production.
Allonger la durée de conservation ?
La question du stockage figure d'ailleurs au coeur de l'agenda d'Arnaud Hungler. En effet, le projet Genome of Switzerland vise à séquencer prochainement le génome de 15 000 citoyens suisses. Soit 1,5 Po de données qu'il faut stocker. « Plus globalement, nous devons réinterroger nos choix en matière de stockage de données. Car, dans nos processus, c'est le séquençage qui coûte le plus cher, bien davantage que les phases d'analyse. Il pourrait donc être pertinent de conserver les données issues du séquençage au-delà de six mois - notre politique actuelle - pour réanalyser des données conservées sur de longues périodes. » Autrement dit, la constitution d'un hub des données génétiques, auquel réfléchit désormais le Health 2030 Genome Center et qui serait un autre levier de la mise en place d'une médecine personnalisée à l'échelle de la Suisse.
Article rédigé par
Reynald Fléchaux, Rédacteur en chef CIO
Suivez l'auteur sur Twitter
Commentaire
INFORMATION
Vous devez être connecté à votre compte CIO pour poster un commentaire.
Cliquez ici pour vous connecter
Pas encore inscrit ? s'inscrire