Data Fondations : gérer et mettre à disposition le patrimoine de données
Le 6 octobre 2020, CIO a diffusé la CIO.Expériences « Data Fondations : gérer et mettre à disposition le patrimoine de données » en partenariat avec Boomi, Denodo, Privitar, Splunk, Talend, Thales, Tibco et MyFrenchStartUp.
PublicitéPour exploiter le patrimoine de données, ce qui est unanimement jugé indispensable pour développer les entreprises, il faut commencer par disposer des infrastructures pour collecter, stocker, entreposer et seulement ensuite visualiser. Or ce pré-requis est loin d'être au niveau nécessaire dans la plupart des entreprises. Quant à optimiser ces infrastructures, il y a beaucoup de chemin à parcourir. C'est ce qui ressort des résultats de l'étude Comment optimiser la gestion des données ?, réalisée par CIO. Cette étude a été présentée sur la CIO.expériences Data Fondations - Gérer et mettre à disposition le patrimoine de données.
Cette webconférence a été diffusée le 6 octobre 2020 et réalisée en partenariat avec Boomi, Denodo, Privitar, Splunk, Talend, Thales, Tibco et MyFrenchStartUp. Elle a permis d'entendre les témoignages de Vincent Cotteaux (DSI, Monoprix), Sébastien Masson (Administrateur de bases de données, CERN) et Christian Thomas (DSI, Viapost). Le grand témoin de la matinée était Jean-Claude Laroche, DSI d'Enedis. En partenariat avec MyFrenchStartUp, Jean-Claude Tagger (Chief Operating Officer, Quasardb) a présenté sa solution de base de données hautes performances. Le replay intégral de la webconférence est disponible ici.
« Patrimoine de données de l'entreprise, dette ou opportunité ? » s'est demandé Géraud Rosenkranz, Sales Director France chez Denodo.
Sujet du jour, le patrimoine de données s'est constitué au fil du temps avec les différentes générations applicatives et les projets IT successifs avec les ERP, les datawarehouses, les documents bureautiques (notamment les classeurs Excel), les data lakes... Ce patrimoine se complexifie également à cause de l'historisation et de la réplication des données tandis que sa gestion est aussi compliquée par d'une part la croissance exponentielle des volumes, d'autre part la répartition entre différentes localisations (locales, en cloud...). Face à une telle accumulation, on peut légitimement se poser la question de savoir si ce patrimoine n'est pas plutôt un boulet, une dette technique, plutôt qu'une source effective de valeur. « Certes, c'est une dette technique et financière mais c'est aussi une valeur pourvu qu'on puisse rationaliser ce patrimoine, on puisse en faire quelque chose » a soutenu Géraud Rosenkranz, Sales Director France chez Denodo.
PublicitéValoriser cet existant, cela passe par le cassage des silos, la fédération effective des données et accélérer les mises à dispositions au business. Mais il faut aussi être économe des deniers de l'entreprise et efficace. Transformer l'entreprise pour la rendre « data centric » peut être facilité par la data virtualisation. La valeur va être générée par une mise à disposition aisée de tout le patrimoine de données. Et toutes les problématiques d'intégration comme de conformité réglementaire vont être traitées de la même façon.
« Quelles pratiques efficaces pour consolider les données de votre SI ? » s'est interrogé Bruno Labidoire, Senior Manager EMEA Presales Southern and Benelux chez Boomi.
Autre facteur de complexité dans le traitement du patrimoine de données, le paysage applicatif des entreprises est extrêmement mouvant même s'il y a de multiples générations technologiques toujours présentes. Bruno Labidoire, Senior Manager EMEA Presales Southern and Benelux chez Boomi, a ainsi relevé : « nous sommes passés d'une IT où la majorité des coûts était consacrée au maintien en conditions opérationnelles d'applications spécifiques à une IT où l'on installe des progiciels, où l'on innove et propose sans cesse de nouvelles fonctionnalités. » De fait, le budget se concentre désormais sur ce build et non plus sur le run. Le paysage applicatif n'est donc plus monolithique mais constitué de multiples outils qui doivent s'interconnecter pour traiter ensemble le patrimoine de données.
Exemple d'entreprise ayant relevé les défis posés, Bruno Labidoire a présenté le cas d'Engie. Cet énergéticien a eu à intégrer 250 processus en lien avec le déploiement du CRM Salesforce et son ERP historique SAP, une partie du SI reposant sur le cloud AWS. Le défi a été relevé en huit mois, avec un coût inférieur d'un facteur dix à la situation antérieure et la capacité à accélérer la mise en production de nouveaux services. C'est l'approche plate-forme qui permet d'atteindre ces objectifs. Mais quatre pièges ont été pointés par Bruno Labidoire lors de son intervention, pièges qui peuvent amener à l'échec des projets.
Vincent Cotteaux, DSI de Monoprix, a témoigné sur comment Monoprix a fait évoluer son stockage du datawarehouse au stockage cloud.
Des réussites dans l'évolution de la gestion du patrimoine de données, il y en a heureusement un certain nombre. C'est notamment le cas de Monoprix. Vincent Cotteaux, DSI de Monoprix, a noté : « Monoprix est une entreprise ancrée dans le quotidien depuis 88 ans, qui fait partie du groupe Casino depuis 1993, leader omnicanal du centre ville avec plusieurs enseignes : Monoprix, Monop', Naturalia... sans oublier le e-commerce (Monoprix.fr, Sarenza...). » 800 000 clients passent tous les jours dans les magasins du groupe. La DSI dispose de trois grandes divisions, celle consacrée à la construction applicative en partenariat avec le métier, celle des opérations informatiques (exploitation, infrastructure, déploiement en magasins...) et enfin celle, transverse, de pilotage. Le RSSI est à côté de ces trois divisions.
Avec une histoire aussi ancienne, Monoprix disposait bien sûr d'un Legacy. « Il y a quelques mois encore, nous avions un datawarehouse Teradata » s'est souvenu Vincent Cotteaux. Un tel stockage posait d'énormes difficultés en matière de performance comme d'agilité et de réponse aux attentes business. Vincent Cotteaux a ainsi déploré : « tous les lundis matins, jours de reporting, j'avais des utilisateurs mécontents au téléphone. » Lors de son témoignage, il a raconté comment il a mis en oeuvre une plate-forme efficace, à un coût raisonnable, en étant conforme au RGPD et surtout en laissant les métiers les plus autonomes possibles dans la visualisation. Plusieurs démonstrateurs ont été mis en oeuvre avec diverses solutions du marché (Google Big Query, Snowflake...). Petit à petit, Monoprix a basculé sur Snowflake sur cloud Azure, avec une adaptabilité des puissances de calcul aux besoins instantanés.
« Accélérer, simplifier la modernisation de son organisation avec la virtualisation des données » a proposé Michaël Matovic, Senior Solution Consultant chez Tibco Software.
Mais le problème de base reste la pléthore de données à traiter dans les entreprises, pléthore qui s'accroît. Michaël Matovic, Senior Solution Consultant chez Tibco Software, a cependant observé : « il n'y a que 14 % de données originales, le reste (86%) n'étant que de la réplication, de la diffusion par multiplication de petites bases de données locales pour des applicatifs. Et jusqu'à 80 % du temps d'un projet consiste à trouver cette donnée et à la mettre en forme, ce qui passe par de multiples itérations. » Malgré tous les efforts faits, l'atteinte des objectifs n'est pas toujours au rendez-vous, notamment à cause du silotage et des historiques techniques. A cela s'ajoute des problématiques de sécurité et de conformité réglementaire (notamment RGPD) : 70 % des collaborateurs auraient accès à des données de manière inappropriée.
Pour gérer cette complexité tout en garantissant la gouvernance, notamment des droits d'accès, la solution de la data virtualisation est une réponse adéquate. Si ce n'est pas révolutionnaire, cette approche est dans l'air du temps. Le patrimoine de données virtualisé va devenir un point d'entrée unique pour l'ensemble des utilisateurs et des consommations. Quelque soit la source applicative, la localisation (cloud, on premise...)... cela n'a plus d'importance. Et, évidemment, il n'existe aucune réplication, donc il y a un fort gain de volume. Lors de son témoignage, Michaël Matovic a présenté le cas d'une banque qui, grâce à la virtualisation des données, de digitaliser sa relation client.
Sébastien Masson, administrateur de bases de données au CERN, a expliqué comment le CERN pilote le LHC et ses résultats avec une base autonome pour explorer des données massives.
L'évolution de la gestion du patrimoine de données passe aussi par des mises à niveau des bases de données pour en réduire le coût d'administration et en accroître les performances. C'est le sens du projet mené au CERN (Conseil Européen pour la Recherche Nucléaire), organisme qui réunit aujourd'hui 23 pays et met en oeuvre le LHC (Large Hadron Collider, Grand Collisionneur de Hadrons). « Les données scientifiques brutes sont issues des capteurs situées à quatre endroits du LHC, là où les collisions se produisent » a précisé Sébastien Masson, administrateur de bases de données au CERN. 390 Po de données scientifiques brutes sont créées par an. A celles-là s'ajoutent 30 Po/an de données de contrôle, de surveillance, de cet anneau souterrain de 27 kilomètres.
Les données sont stockées dans des bases de données relationnelles Oracle. Une approche Big Data a alors été mise en oeuvre pour faciliter la visualisation et le reporting mais en perdant le temps réel des bases de départ. Oracle Autonomous Datawarehouse, sur une infrastructure Cloud à base d'Exadata, a été récemment déployé pour compléter l'infrastructure, testée avec la création d'une application de gestion des réservations des visites du LHC. Lors de son témoignage, Sébastien Masson a décrit cette implémentation, notamment pour se réjouir de la facilité de gestion, sous réserve de supprimer les optimisations manuelles pour laisser l'IA faire.
« Sécuriser les données à l'heure du Cloud : 4 étapes pour protéger efficacement vos données sensibles » a décrit Philippe Carrere, Sales Director Data Protection chez Thales.
Le patrimoine de données doit être exploité mais il doit aussi être préservé, sécurisé, notamment pour la part la plus sensible. Lors de son intervention, Philippe Carrere, Sales Director Data Protection chez Thales, est notamment revenu sur le cas d'une grande compagnie aérienne qui s'est fait dérober de grandes quantités de données par une brèche découverte avec cinq mois de retard. « Ce genre d'incident a des conséquences indirectes, comme le coût moyen de trois millions d'euros ou les impacts sur les expositions judiciaires les pertes de part de marché, etc. » a rappelé Philippe Carrere.
Et, contrairement à ce que beaucoup de gens pensent, transférer les données dans le cloud n'entraîne pas le transfert de la responsabilité de la sécurité des données au prestataire. Face à cela, il est donc nécessaire de mettre en oeuvre une stratégie efficace de sûreté des données. Tout commence par une identification et une localisation des données sensibles avant de se demander comment elles peuvent être protégées. Il faut ensuite contrôler les accès effectifs et, pour terminer, poursuivre la visibilité des risques sur les données.
Grand témoin de la matinée, Jean-Claude Laroche, DSI d'Enedis, a détaillé comment Enedis contrôle, pilote et facture la distribution électrique en exploitant la donnée de la production à la facturation.
Le Grand Témoin de la CIO.expériences a été Jean-Claude Laroche, DSI d'Enedis. Cette entreprise distribue de l'électricité sur 95 % du territoire métropolitain, connectant les lignes très hautes tensions de RTE (Réseau de Transport d'Electricité) provenant des centrales de production aux particuliers et aux entreprises consommant l'énergie, soit 37 millions de clients. Elle dispose également de clients-producteurs : les particuliers ou les entreprises qui produisent de l'électricité comme les énergéticiens. Enedis génère 14 milliards d'euros de chiffre d'affaires et investit tous les ans dans le réseau (4 milliards en 2019).
Le compteur communiquant Linky poursuit son déploiement comme prévu, avec 28 millions d'unités installées à ce jour. Il permet un suivi très précis de la consommation (si l'offre de l'énergéticien le nécessite) mais aussi de la santé du réseau. Enedis peut en effet utiliser les données des Linky pour connaître la situation, notamment s'il y a une panne quelque part, afin d'intervenir au plus tôt, parfois même en prévention. « Les données de consommation appartiennent aux clients et elles ne sont utilisées qu'avec leur consentement, par exemple pour bénéficier d'un suivi en ligne ou d'un niveau de tarif particulier » a précisé Jean-Claude Laroche. Celui-ci a détaillé les modalités de traitement de ces données lors de son témoignage.
« Transformez votre activité avec des données fiables » a milité Philippe Romano, Sales Director - France, Belgique, Luxembourg et Suisse chez Talend.
Le patrimoine de données, par le fait même de son importance business, doit être fiable. « Le data chaos entrave la confiance dans les données » a dénoncé Philippe Romano, Sales Director - France, Belgique, Luxembourg et Suisse chez Talend. La multiplicité des sources de données, le shadow IT, les pertes de données ou les pertes sur les possibilités de les exploiter et enfin les échecs sur la transformation numérique caractérisent ce data chaos.
Pour être fiables, les données doivent respecter un certain nombre de critères. D'abord, elles doivent être totalement maîtrisées, intègres et complètes. Elles doivent être accessibles en transparence et de façon compréhensible ainsi que disponibles avec le timing approprié, le cas échéant en temps réel. La traçabilité de la production et des traitements sur les données est également nécessaire. Enfin, la donnée doit être testée et validée par les utilisateurs eux-mêmes. Reprendre le contrôle des données, c'est permettre la transformation de l'expérience client, améliorer l'efficacité opérationnelle, réduire les risques (notamment en matière de conformité réglementaire) et enfin innover plus rapidement.
Christian Thomas, DSI de Viapost, a expliqué comment Viapost a mené un déploiement SAP BW/Hana avec Microsoft PowerBI pour associer en agilité un datawarehouse et le reporting.
Autre témoin, Christian Thomas, DSI de Viapost, a expliqué pourquoi et comment cette entreprise a mis à jour ses infrastructures de données. Viapost est une filiale de la branche service courrier colis de La Poste, en charge de la logistique (entrepôt, tri et prise de commande) pour les entités du groupe ou d'autres organisations ainsi que du transport en point à point. Une activité connexe est venue s'ajouter : la maintenance des outils industriels logistiques. Pour améliorer le pilotage de l'entreprise, à base de données de production et financières, un projet de décisionnel a été mené. « Auparavant, on avait SAP ECC 6 pour la facturation et, à côté, diverses applications métiers voire des fichiers Excel et nous avions à piloter dans un décisionnel unique l'ensemble de ces informations issues de sources multiples » a précisé Christian Thomas.
Les informations tant financières que de production ont donc été compilées dans SAP BW/Hana. Comme outil de restitution, Viapost pouvait utiliser les outils standards SAP, notamment BO qui appartient au Legacy de Viapost, ou aller chercher plus loin. Les utilisateurs ont eu la possibilité de tester différents rapports sous plusieurs outils et ils ont choisi PowerBI de Microsoft, jugé plus simple et ergonomique. Chaque utilisateur métier a ainsi une vision globale allant de la production à l'impact sur le chiffre d'affaires. Christian Thomas relève : « Nous n'avons eu aucun soucis à intégrer du BW/Hana sur du SAP ECC 6 mais, maintenant, notre difficulté est liée à la rareté des profils disponibles pour gérer du BW/Hana. » Ce projet a aussi été un premier déploiement de la méthode agile au sein de Viapost comme l'a raconté Christian Thomas.
« Créer de la valeur à partir des données pour que l'IT redevienne le moteur de l'innovation » a été détaillé par Stéphane Estevez, EMEA Product Marketing Director IT Markets de Splunk.
La transformation des DSI avec la méthode agile s'est accélérée ces dernières années. « Trop longtemps, la DSI a été celle à qui les métiers demandaient des choses et qui répondait non » a soupiré Stéphane Estevez, EMEA Product Marketing Director IT Markets de Splunk. Même si la DSI avait de bonnes excuses : les budgets serrés, le Legacy... Les sentiments des directions générales relèvent d'un contraste : d'un côté, un désir d'améliorer la performance opérationnelle et l'innovation, ce qui implique de mieux utiliser la data ; de l'autre, une perte de confiance dans la data elle-même jugée silotée et pas toujours fiable.
La DSI doit redevenir au coeur de la circulation de la donnée, pour l'accroître, mais en restant au service des métiers. La data doit rester disponible brute car Stéphane Estevez a observé : « quand vous structurez des données, vous avez déjà la réponse à la question que vous posiez, vous perdez la capacité à investiguer au sein de la masse de données. » Il faut que chaque usager des données puisse devenir « citizen data scientist » et donc disposer des outils pour cela. Ces outils doivent reposer sur des plates-formes de traitement des données, mises en oeuvre par la DSI mais utilisées au quotidien par les utilisateurs métier.
En partenariat avec MyFrenchStartUp, Jean-Claude Tagger, Chief Operating Officer de Quasardb, a présenté une base de données distribuée et haute performance.
En partenariat avec MyFrenchStartUp, Jean-Claude Tagger, Chief Operating Officer de Quasardb, a ensuite présenté cette start-up. Editeur de logiciels, Quasardb a réalisé sa recherche et développement de 2008 à 2014, moment auquel elle a commencé à publier ses outils. Deux levées de fonds (2014, 2017) ont permis la mise au point d'une base de données particulièrement performante pour les time series (séries temporelles : une série infinie de valeurs). Le produit de Quasardb est ainsi utilisé dans la finance de marché (marché historique), les véhicules connectés et l'industrie 4.0.
Les volumes sont gigantesques (To, Po...) et collecter puis traiter ces données est un défi technique en lui-même. Par rapport aux SGBD-R, Quasarddb absorbe bien mieux les mises à l'échelle avec des ressources informatiques moindres. Et, cerise sur le gâteau, cet outil s'intègre avec tous les langages standards (Python...) et peut être interrogé en SQL, évitant d'avoir recours à un langage spécifique dont les locuteurs seraient nécessairement hors de prix.
« Libérez vos données avec la Data Privacy » a plaidé Christian Raza, Regional Sales Manager SEMEA de Privitar.
Constituer et exploiter le patrimoine de données, c'est bien. Mais il faut aussi savoir protéger les données sensibles et personnelles. La Data Privacy Engineering regroupe un ensemble de techniques visant à cet objectif. « C'est le métier de Privitar » a relevé Christian Raza, Regional Sales Manager SEMEA de Privitar. Une fois préservées, ces données peuvent être utilisées et délivrer de la valeur aux métiers. Les évolutions réglementaires sur les données personnelles, la dernière étape à ce jour étant constituée du RGPD, ont obligé les organisations à se préoccuper du sujet.
Pour Christian Raza, « si on peut être tenté de voir le RGPD et les 80 autres législations similaires dans le monde, sans oublier les réglementations sectorielles, comme un frein pour être data driven, il y a aussi les craintes relatives aux fuites de données et les craintes éthiques suite au scandale Cambridge Analytica qui vont limiter les usages des données qui permettraient d'en tirer toute la valeur possible ». La Data Privacy Engineering permet de débloquer les projets pour éviter d'opposer la protection des données personnelles et la création de valeur à partir des données.
Article rédigé par
Bertrand Lemaire, Rédacteur en chef de CIO
Commentaire
INFORMATION
Vous devez être connecté à votre compte CIO pour poster un commentaire.
Cliquez ici pour vous connecter
Pas encore inscrit ? s'inscrire