Stratégie

Printemps de l'USF : le Big Data expliqué en détail

Le vent des Big Data a soufflé aussi sur le Printemps de l'USF. Mardi matin, le club des utilisateurs SAP francophones s'est penché sur le sujet, tandis que les grands fournisseurs IT sortent l'un après l'autre des solutions dans ce domaine. Invité à en parler devant les adhérents, le Gartner a évoqué les multiples formes que prendrait l'exploitation de cette avalanche de données. Mais il n'existe pas de solution miracle.

PublicitéClaude Molly-Mitton, président de l'USF, a invité différents intervenants à exposer la réalité et les enjeux des Big Data aux utilisateurs de SAP, cette semaine à Paris. Le club francophone compte aujourd'hui 2 700 adhérents, soit une progression d'environ 13% en 2011 du nombre de membres et de sociétés représentées. L'association a prévu de réactiver son livre blanc sur les bonnes pratiques de la relation commerciale avec l'éditeur, co-écrit avec le Cigref. « Il sera mis à jour pour la prochaine Convention USF qui se tiendra à Dijon les 3 et 4 octobre prochains », leur a annoncé le président. Un autre livre blanc sur Solution Manager est également planifié. Au cours de l'après-midi, le Printemps de l'USF avait programmé des groupes de travail sur les applications SAP. Deux étaient ouverts à tous, adhérents ou non, celui de la Commission PME Ile-de-France et celui sur la norme 4DS.

Pour ce Printemps, le choix des Big Data au menu de l'USF se justifie par les applications que leur traitement permet d'envisager, « impensables jusque-là », a souligne Claude Molly-Mitton pour qui il ne s'agit en aucun cas, « d'un thème marketing ou médiatique ». Cinq orateurs se sont tour à tour exprimés, envisageant différents aspects du sujet. Parmi eux, le DSI de La Poste (90 millions de tris quotidiens sur le courrier) a présenté son projet.

Roxane Edjlali, directeur de recherche au cabinet Gartner a livré une approche globale de la question. « Le pilier de cette problématique, ce sont les données que l'on continue à accumuler », a-t-elle rappelé. Elles sont collectées par les sites web, les réseaux sociaux, les téléphones mobiles et la géolocalisation, mais aussi par la télémétrie, la RFID et les multiples sondes et capteurs posés ici et là. « C'est une réalité. On peut choisir de l'ignorer ou de s'en servir. Chez Gartner, nous pensons qu'utiliser ces données de façon cohérente sera plutôt un avantage concurrentiel pour les entreprises ». Si ces informations sont valorisables, elles auront un impact sur leur stratégie.

La volumétrie n'est qu'un des aspects

Pour le cabinet d'études, « les organisations qui seront capables d'intégrer la diversité de ces données vont dégager d'ici 2015 une compétitivité financière supérieure de 20% à celles de leurs pairs ». Les utilisations seront cependant très diverses et prendront de nombreuses formes, a précisé l'analyste en rappelant que 60 à 80% des informations d'une entreprise étaient non structurées. « 1,2 zettaoctets de données IT ont été générés dans le monde en 2010, soit autant que depuis le début de l'informatique », a mentionné un peu plus tard François Stéphan, directeur délégué du CRIP, le club des responsables d'infrastructure et de production. « Des données qui résultent de la numérisation de notre économie, a-t-il rappelé, qui vont en outre plus que doubler tous les deux ans et que l'on ne peut pas traiter avec les outils classiques. »

PublicitéLe phénomène Big Data ne borne pas à un problème de volumétrie. Loin s'en faut. « Ce n'est qu'un des aspects. Il y a aussi la vélocité des données. Elles peuvent être mesurées en temps réel avec peu de latence, par exemple avec les capteurs, ou bien arriver sous la forme de pics soudains, sur Twitter notamment », explique l'analyste. A cela s'ajoute la variété de l'information recueillie (images, vidéos, textes...) et sa complexité. « Beaucoup de ces données sont externes à l'entreprise qui a peu de pouvoir pour les gérer ou les nettoyer ». L'aspect qualitatif diffère ici sensiblement par rapport aux données transactionnelles qui sont associées à des principes de gouvernance.

L'infrastructure IT impactée sur douze axes

Dans son ensemble, le phénomène Big Data « va affecter votre infrastructure sur douze axes », a expliqué Roxane Edjlali aux adhérents de l'USF (*). Aux quatre déjà cités (volume, vélocité, variété, complexité), elle ajoute la périssabilité des informations : « Combien de temps va-t-on les garder ? » Les données doivent aussi être corrélées, reliées à d'autres qui les enrichissent. « Cela fait partie de la qualification de l'information. Si on ne peut pas relier l'information à d'autres, est-elle bien utile ? », pointe Roxane Edjlali. Elle cite encore tous les aspects juridiques sur la rétention de l'information, questions abordées un peu plus tôt dans la matinée par Maître Christiane Feral-Schuhl, avocate spécialisée en nouvelles technologies. Cette dernière avait aussi largement évoqué la démarche Open Data qui conduit à l'ouverture des données publiques, celles-ci pouvant dès lors être corrélées avec d'autres informations.

Roxane Edjlali, directeur de recherche chez Gartner, intervenant sur les Big Data
Crédit photo : Nicolas Fagot

Quels types d'application peut-on mettre en oeuvre. « Il y a déjà l'analyse de sentiments effectuées à partir des réseaux sociaux afin d'évaluer la perception des marques, un cas d'usage mis en place par les départements marketing », cite l'analyste. Elle rappelle que le premier cas d'usage des Big Data a porté sur les connexions des internautes sur les sites web pour afficher les informations suivant les centres d'intérêts. « C'est un peu le fondement de la démarche ». Autre exemple : la capacité à proposer des prix en temps réel pour l'achat de voyages. En faisant tourner des algorithmes de pricing au fur et à mesure que des internautes achètent des billets. « La capacité à pouvoir faire des calculs immédiatement sur l'ensemble des transactions exécutées vient livrer une valeur différenciatrice pour retenir les clients », explique la directrice de recherche chez Gartner.

Quel impact sur les architectures ?

Roxane Edjlali insiste sur le fait que les problématiques sont très différentes en fonction des cas d'usage et livre deux autres exemples. L'analyse de graphe, d'abord, qui permet de détecter dans Facebook quels sont les influenceurs pour ne cibler qu'eux. Ou, encore, le site web MeilleursAgents qui surimpose sur une carte les données de cadastre, les prix de vente au m2 et, en fonction de la géolocalisation de l'internaute, affiche sur son mobile le prix du m2 à l'endroit où il se trouve. « L'application combine des données structurées avec des données publiques et des données géolocalisées, détaille Roxane Edjlali. C'est assez représentatif de ce l'on peut faire. » Des applications nouvelles peuvent ainsi être imaginées dans différents domaines du fait de pouvoir combiner quasi instantanément ces informations de sources et de natures diverses.

Comment ces projets vont-ils impacter les architectures ? « Aujourd'hui, les bases de données relationnelles se mesurent en dizaines ou centaines de téraoctets et sont déjà difficiles à administrer telles qu'elles sont. Si nous passons aux dizaines de petaoctets, cela ne va pas tenir. » Par ailleurs, les approches transactionnelles ne sont pas adaptées à la recherche de « patterns » (motifs) sur de gros volumes en ligne, rappelle Roxane Edjlali. Faire du chargement en temps réel sur le datawarehouse est une demande croissante, mais avec les capteurs, c'est difficile. « D'autant qu'on n'a pas besoin de tout capter, mais surtout les deltas », fait-elle remarquer. « Les structures de stockage ne sont pas adaptées à ces données, et pas adaptées non plus à les traiter avec la rapidité à laquelle elles arrivent ». Il faudra pouvoir utiliser des informations collectées au cours du temps, mais sans avoir obligatoirement tout en ligne. « Cela dépendra du besoin », souligne l'analyste. « Par exemple, pour une analyse comparative et de tendance au long cours, ce n'est pas si grave si cela ne se fait pas en temps réel. Cela peut être en batch, une fois par jour ».

Pas de solution miracle sur le marché

Si l'on regarde le marché, aucun fournisseur n'apporte la solution miracle tenant compte des 12 axes répertoriés par Gartner, fait remarquer la directrice de recherche. L'entreprise doit donc déterminer quels sont ses critères principaux. Est-ce la volumétrie qui prime ? La vélocité ? Accepte-t-elle une qualité moindre au prix d'un traitement plus rapide ? « Quels sont sur ces 12 axes ceux qui sont principalement concernés par l'application que vous souhaitez faire ? », soumet-elle à son auditoire. Tout ne relève pas du CEP (complex event processing), un cas d'application bien connu, relève-t-elle, et déjà mis en oeuvre depuis longtemps sur les transactions bancaires dans les salles de marché, ou dans l'industrie.

Du côté des technologies, tous les grands noms du logiciel ont désormais leur infrastructure Hadoop pour gérer les grosses volumétries. D'autres, comme Hortonworks ou Cloudera, ne fournissent que l'infrastructure permettant d'aller chercher des motifs à travers ces divers fichiers. « Cela demande des compétences de statisticien et des connaissances métiers pour savoir quoi chercher dans ces informations », insiste Roxane Edjlali. « Il faut aussi des compétences en programmation pour aller chercher ces motifs ».

NoSQL, bases de données en mémoire, etc.

Pour la structure de stockage, les bases NoSQL sont faites pour stocker un grand nombre d'interactions. « Elles sont vraiment faites pour adresser ces besoins de rapidité. C'est parfait pour l'analyse de graphiques et de documents ». Bien sûr, l'analyste voit aussi un « gros futur » dans la base de données en mémoire, telle que la propose notamment SAP avec son appliance HANA, présentée par la suite par Nicolas Sekkaki, directeur général de SAP France. « D'ici 5 ans, nombre d'applications traditionnelles vont s'appuyer sur ces bases en mémoire parce que l'on va s'affranchir des contraintes historiques liées à la façon dont on écrivait dans les bases de données. Jusque-là, on gérait les I/O (entrées/sorties), maintenant, on utilise la même structure de données pour le transactionnel et l'analyse décisionnelle. On va pouvoir lier les données et faire ce lien au vol ». Pour Roxane Edjlali, le datawarehouse d'entreprise devra évoluer vers une infrastructure dédiée aux cas d'usage : « Le CEP pour la recherche d'information, les bases de données en mémoire pour la rapidité des analyses et, puis peut-être des systèmes Hadoop et des environnements HDFS pour chercher des motifs dans de gros volumes d'informations ».

En conclusion, les Big Data constituent une vraie problématique. Le « vaporware » une fois dissipé, on devrait voir se détacher de vrais cas d'usage. « Cherchez des projets pour vous y essayer, conseille Roxane Edjlali. Mais considérez bien les 12 dimensions. Il ne s'agit pas de tout faire ».

Un projet Big Data à La Poste

Au cours de la matinée, l'USF avait également convié Denis Weiss, DSI Industrie de La Poste. Ce dernier a expliqué comment leur approche des Big Data peut leur fournir des infos précises sur ce qui se passe dans le système de tri du courrier. Les chiffres évoquent sans peine l'univers des Big Data : 90 millions de tris effectués tous les jours, 30 millions d'adresses distribuées, 3 500 établissements de distribution, 70 000 tournées par jour et 60 millions d'objets distribués. « Nous gardons quinze jours d'historique et un an d'archives en haute disponibilité », a relaté le DSI. « Nous avons mis en place une approche NoSQL avec un stockage des données en mode clef-valeur et un codage en XML. »

Deux millions de données sont indexées et deux moteurs de recherche utilisés : Exalead et l'outil Open Source Solr. Une deuxième approche s'appuie sur une logique MOLAP avec la base de données en colonnes Infini DB. Les requêtes multidimensionnelles en ligne passent par Mondrian/JPivot. « Ces deux applications, l'une en temps réel, l'autre comme outil de pilotage, nous ont permis de rendre un service que l'on ne pouvait rendre autrement ».

Au même moment, un salon consacré aux Big Data s'est également tenu cette semaine à la Cité Universitaire.

(*) Les douze axes de Gartner pour appréhender les Big Data : volume, vélocité, variété, complexité, périssabilité, fidélité, validation, corrélation, classification, technologie, contrats, utilisation généralisée.