Coface Services adopte un requêteur adapté au Big Data
Coface Services, qui va devenir Ellisphere, s'est dotée d'un nouvel outil de requêtage pour absorber les immenses volumes de données et les demandes complexes.
PublicitéCoface Services délivre des informations sur les entreprises soit sur leur solvabilité soit plus générales. Dans ce deuxième cas, la société doit gérer des requêtes complexes sur des bases de données très volumineuses avec une délivrance de type temps réel. Pour y parvenir avec plus d'efficacité, elle s'est dotée d'un nouvel outil de requêtage.
Parmi ses clients, Coface Services compte la Coface. Si la Coface est une filiale de Natixis spécialisée dans l'assurance crédit pour entreprises, Coface Services n'est désormais plus sa filiale mais est directement rattachée à Natixis. Elle va d'ailleurs prochainement être rebaptisée Ellisphere pour éviter la confusion.
La collecte de données de sources diverses pour calculer des scores de probabilité de défaillance n'est en effet pas la seule activité de la société. Sa branche « solutions data » permet le ciblage d'entreprises à des fins, par exemple, de démarchage commercial ou d'enrichissement de fichiers clients.
Les sources de données sont très diverses et proviennent souvent de producteurs d'informations sous contrat : la DILA (Direction de l'information légale et administrative) département Journaux Officiels pour les données du BODACC (Bulletin officiel des annonces civiles et commerciales), les greffes de Tribunaux de Commerce, l'INSEE, etc. Les informations sont collectées avec une régularité variable selon la source (quotidienne, hebdomadaire...), filtrées et intégrées dans les bases de données de Coface Services. « Nous collectons autant du structuré que du non-structuré comme des analyses » précise Jean-Luc Brizard, DSI de Cofaces Services.
Limites importantes sur les requêtes complexes
Plusieurs bases Oracle sont utilisées pour absorber les volumes concernés. Jean-Luc Brizard indique cependant : « dans notre activité, le volume brut n'est pas très significatif, il vaut mieux retenir que nous traitons 15 milliards de données élémentaires sur 15 millions d'établissements en provenance d'une vingtaine de sources. » La direction de la production conçoit alors des vues Oracle à partir de règles de gestion. Ces vues de telle(s) ou telle(s) entreprise(s) sont alors diffusées de diverses façons aux clients de Cofaces Services. Le décisionnel (à base de Qlikview et de SAP Business Object) n'est utilisé que pour les analyses.
Or les outils Oracle atteignent vite leurs limites quand il s'agit d'effectuer des requêtes complexes. « Les tris croisés se font avec une performance limitée et les problèmes s'accroissent vite avec la combinatoire et le nombre de critères » observe Jean-Luc Brizard. Pour l'offre « solutions data », les clients peuvent en effet, via une interface web, lancer des comptages multi-critères, par exemple pour savoir combien il existe d'entreprises de tel secteur d'activité dans telle zone géographique avec telle tranche d'effectif. Une fois un premier comptage effectué, le client peut affiner ses critères, pour resserrer ou étendre le fichier.
PublicitéUne fois un nombre adéquat trouvé, le client pourra acheter le fichier des entreprises sélectionnées avec un tarif très variable selon la richesse de l'information demandée et le nombre d'entreprises incluses.
Une refonte nécessaire
Une refonte nécessaire
Pour tenter de restreindre l'impact des limitations techniques, il existait deux outils différents selon que l'interrogation se faisait en interne ou par les clients externes. Or les données n'étaient pas toujours parfaitement synchronisées. Coface Services a donc décidé de changer ses outils en adoptant un outil unique plus performant.
Jean-Luc Brizard se souvient : « nous avons interrogé plusieurs sociétés et évalué les outils d'Oracle, d'Exalead et de ParStream au travers d'un proof-of-concept à partir d'un cahier des charges ».
Un choix avant tout purement technique
Plusieurs arguments techniques ont plaidé pour la technologie de ParStream finalement choisie. La complétude fonctionnelle et le fait que les volumes traités par Coface Services étaient nettement en dessous des capacités maximales de l'outil ont été les premiers critères.
La solution utilise le principe du Bit Vector, une manière de décomposer toutes les informations en 0 et 1 connue depuis plus de vingt ans, mais avec une variante utilisant un algorithme de compression spécifique qui permet de baisser les volumes à stocker et accroît la vitesse des traitements.
Les temps de traitements, justement, ont été jugés « impressionnants » même en cas de multi-requêtage simultané grâce, selon Jean-Luc Brizard, à « un multi-threading très bien géré ». De la même façon, l'outil traite autant les champs numériques que non-numériques. « Il est ainsi possible de chercher toutes les entreprises où boucherie sera présent dans l'activité, ce qui inclura les boucheries-charcuteries » spécifie le DSI. Il se réjouit : « en général, les outils du marché sont soit bons dans le non-structuré, soit bons dans le structuré mais pas dans les deux. ParStream, lui, est bon dans les deux. »
Des besoins matériels limités
Enfin, la solution ParStream est indépendante d'un constructeur de matériel. Il est donc possible de l'installer sur à peu près n'importe quel serveur Unix ou Linux.
Coface Services s'est doté de trois serveurs en parallèle, avec équilibrage de charge. Pour Jean-Luc Brizard, « la solution est économe en ressources et ce petit nombre de machines est donc suffisant. »
Le coût du projet est confidentiel.
Article rédigé par
Bertrand Lemaire, Rédacteur en chef de CIO
Commentaire
INFORMATION
Vous devez être connecté à votre compte CIO pour poster un commentaire.
Cliquez ici pour vous connecter
Pas encore inscrit ? s'inscrire