Technologies

Dossier Data fondations : les bons choix pour dynamiser son patrimoine de données (1e partie)

Dossier Data fondations : les bons choix pour dynamiser son patrimoine de données (1e partie)
Rendre les données exploitables et facilement accessibles constitue un enjeu clef des socles data modernes.(Crédit Tima Miroshnichenko/Pexels)

Tout parcours analytique commence par de solides fondations qui, une fois posées, constituent la colonne vertébrale des projets liés aux données. Ces fondations permettent aux analystes de données de découvrir rapidement les insights les plus pertinents, aux data scientists de créer des modèles prédictifs ad hoc et aux opérateurs de se concentrer sur l'enrichissement des données. Mais encore faut-il faire les bons choix d'architecture et de technologies pour garantir une mise à disposition efficace, sécurisée et maîtrisée sur le plan budgétaire. Dans cette première partie, nous nous attacherons à dresser un état des enjeux auxquels les infrastructures de données doivent répondre.

PublicitéLes ressources dédiées à la gestion des données sont aujourd'hui bousculées par les nouveaux usages des métiers : prise de décision en temps réel, analytique prédictif, processus « data-driven », personnalisation avec ou sans IA... Tout parcours analytique commence par de solides fondations qui, une fois posées, constituent la colonne vertébrale des projets liés aux données. Les fondations reposent tout d'abord sur la création d'une plateforme de données moderne, qui consiste à cartographier l'ensemble des sources de données de l'entreprise et à les placer dans un système de stockage approprié. Une fois que les bonnes données sont au bon endroit, un espace de travail permettant de consulter et d'analyser les jeux de données est nécessaire. Le dernier maillon de la chaîne est constitué par les outils fournissant les informations aux bonnes personnes, qu'il s'agisse de rapports financiers ou de reporting marketing.

Ces fondations permettent aux analystes de données de découvrir rapidement les insights les plus pertinents, aux data scientists de créer des modèles prédictifs ad hoc et aux ingénieurs de se concentrer sur l'enrichissement des données. Mais encore faut-il faire les bons choix d'architecture et de technologies pour garantir une mise à disposition efficace. Et, bien entendu, les habituelles questions du coût et de la sécurité ne doivent pas non plus être négligées.

Stocker la data de façon efficiente

Pour répondre à la digitalisation croissante de leurs activités et à des besoins de flexibilité et d'évolutivé toujours plus élevés, les entreprises sont tentées d'opter pour des solutions de stockage 100 % cloud. Cela leur offre une forte maîtrise des coûts, une mise en oeuvre facilitée et une capacité à monter en charge sans comparaison avec les solutions on premise. Mais attention aux coûts cachés qui peuvent survenir lors d'une migration d'un fournisseur de cloud vers un autre, par exemple. Quant aux solutions on-premise, elles continuent d'offrir de nombreux avantages comme celui de l'indépendance totale vis-à-vis des prestataires externes et de la protection des données les plus sensibles. Avec la contrainte cependant de devoir assurer l'entière responsabilité de la maintenance et de la sécurisation d'une telle infrastructure.

C'est la raison pour laquelle les offres hybrides se multiplient. Elles sont de deux types. Le premier marie stockage sur site et en ligne. Cela permet de bénéficier de la faible latence et des capacités de calcul élevées sur site, mais aussi des coûts attractifs du cloud public. Le deuxième type d'offre de stockage hybride est entièrement basé dans le cloud. Il permet d'alterner entre clouds publics et privés en fonction des types de données à manipuler. Une fois ces fondamentaux maîtrisés, les entreprises peuvent opter pour l'hyperconvergence qui combine stockage, calcul et mise en réseau dans un seul framework IT. Cela leur permet de réduire la complexité de leurs datacenters tout en bénéficiant d'une évolutivité accrue grâce aux apports d'une infrastructure cloud publique, sans toutefois se priver du contrôle de leur matériel sur site.

PublicitéEntreposer la donnée pour en garantir l'exploitabilité

Le choix entre bases SQL et NoSQL est une première étape sur le chemin qui mène à la data fondation idéale. Distribuées, les bases de données NoSQL peuvent être stockées sur des serveurs différents, en local ou en cloud. Elles sont de ce fait adaptées au stockage et à la gestion de larges volumes de données (Big Data) et peuvent supporter de rapides montées en charge. En revanche, elles manquent encore de standardisation et d'interopérabilité, contrairement aux bases SQL traditionnelles.

Dans la même logique, les entreprises ont le choix entre les data lakes, qui stockent des données brutes pouvant être analysées très rapidement, quel que soit l'objectif, et les data warehouses, bases de données relationnelles stockant des données transformées. Certains éditeurs proposent une solution cumulant les avantages des deux mondes : le lakehouse. Son objectif est d'adresser avec un seul outil l'ensemble des cas d'usages data : streaming, BI, machine learning...

Mais face au caractère quelque peu monolithique de ces architectures centralisées (data warehouse, data lake...), le data mesh (maillage de données) fait irruption depuis quelques années dans le paysage de la data. Il propose une structure décentralisée reposant sur le principe des architectures de micro-services. Il se révèle pertinent pour les équipes devant manipuler de très nombreuses sources de données et les traiter rapidement.

Préserver la donnée pour mieux l'exploiter

Sauvegarder ses données reste le meilleur moyen de se prémunir contre les attaques des cybercriminels (via les ransomwares notamment) et contre les destructions de matériel. Il est dans un premier temps nécessaire d'identifier les données réellement critiques puis de réaliser des sauvegardes régulières, qu'il faut tester et protéger. Rien de sert en effet de disposer de sauvegardes si celles-ci sont chiffrées par le premier rançongiciel venu.

La dispersion des données constitue un autre risque que les entreprises doivent adresser. Si le niveau de dispersion est trop élevé, les principaux utilisateurs de la donnée, à savoir les data-scientists, auront des difficultés à y accéder facilement alors que d'autres personnes pourront y avoir accès sans autorisation. C'est donc la gestion des droits qui est en jeu. La virtualisation des données permet de mettre en place un point d'entrée unifié sur le patrimoine des données et de reprendre la main dans ce domaine. Enfin, à l'heure du RGPD et des différentes législations mondiales visant à protéger les données sensibles et personnelles, il est indispensable de se doter des compétences et des solutions nécessaires à un « Data Privacy Engineering » digne de ce nom. Cette discipline consiste à préserver ces données particulières afin de leur permettre de délivrer toute leur valeur métier.

Consulter la seconde partie de ce dossier : panorama des solutions

Consulter la troisième partie de ce dossier : retour sur la conférence Data fondations.

Partager cet article

Commentaire

Avatar
Envoyer
Ecrire un commentaire...

INFORMATION

Vous devez être connecté à votre compte CIO pour poster un commentaire.

Cliquez ici pour vous connecter
Pas encore inscrit ? s'inscrire

    Publicité

    Abonnez-vous à la newsletter CIO

    Recevez notre newsletter tous les lundis et jeudis