L'AMF s'appuie sur le big data pour surveiller les marchés

L'Autorité des marchés financiers (AMF) a mis en place une plateforme big data Cloudera pour collecter et traiter les milliards de données nécessaires à ses activités de détection et de prévention des fraudes.
PublicitéLors d'un webinaire, l'Autorité des marchés financiers (AMF) a présenté son programme ICY, visant à moderniser ses infrastructures de données. Lancé en 2016, celui-ci a permis de mettre en place une plateforme de big data basée sur les solutions Cloudera, aujourd'hui au service de la détection des fraudes et de la protection des épargnants. « Les données sont absolument capitales pour l'AMF : tous comme les médecins, il nous faut beaucoup d'information pour jouer notre rôle de gendarme des marchés », explique Iris Lucas, responsable data intelligence à l'AMF. Ces données sont notamment nécessaires pour traquer les comportements frauduleux, comme les délits d'initiés. Au cours des dernières années, les quantités de données traitées par l'AMF ont fortement augmenté, au fil des différentes législations financières européennes, comme EMIR (European Market Infrastructure Regulation) en 2014 ou MiFIR (Markets in Financial Instruments Regulation), entré en application en janvier 2018.
Dès 2016, l'infrastructure de données en place n'était plus capable d'évoluer pour absorber ces volumétries croissantes. Elle rencontrait également des enjeux de performance et n'offrait pas aux équipes de data science la liberté souhaitée pour manipuler les données. « Nous avons décidé de retravailler cette infrastructure pour répondre à des besoins métiers plus exigeants », relate Ricardo Da Silva Mesquita, DSI adjoint de l'AMF. Parmi ces besoins figuraient notamment la consolidation de données issues de sources variées, une visualisation de données plus interactive et centralisée, la compatibilité avec les langages utilisés par les data scientists (notamment R et Python) ou encore la possibilité d'appliquer des techniques d'intelligence artificielle aux données. L'autorité publique a alors lancé un programme sur cinq ans, dénommé ICY, afin de mettre à niveau sa plateforme de données.
Permettre le prototypage des algorithmes
« Notre coeur de métier, c'est la détection : nous développons des algorithmes pour détecter de potentiels patterns frauduleux, avant de passer le relais aux équipes de contrôle et d'investigation », indique Iris Lucas. Le développement de ces algorithmes imposait un certain nombre de prérequis pour construire la plateforme. Le premier concerne la collecte et l'intégration des données. « Entre le moment où les données sont intégrées et le moment où nous traitons les données finales avec nos algorithmes, un gros travail de préparation intervient », précise Iris Lucas. Par ailleurs, les équipes procèdent beaucoup par prototypage, avec des phases de qualification des algorithmes. Il fallait donc prévoir un environnement de recherche et développement, qui facilite ensuite l'industrialisation des algorithmes réalisés. Un autre souhait des équipes métiers était de pouvoir faire une surveillance en temps réel, ce qui induisait de vraies contraintes sur le choix de l'environnement d'intégration. Enfin, l'AMF voulait que les données ne soient pas réservées aux seuls data scientists. « Il fallait qu'elles puissent être utilisées par des profils moins techniques, sans avoir besoin de passer par le code », se souvient Iris Lucas.
Publicité
Iris Lucas, head of data intelligence, AMF : « Des techniques d'IA comme le clustering permettent de s'affranchir de paramètres trop stricts dans les systèmes de surveillance. »
Ces différents besoins et contraintes ont conduit l'AMF à se tourner vers une architecture big data. « Nous avions deux choix possibles, repartir sur des solutions relationnelles modernes ou se tourner vers une approche big data. Nous avons choisi la deuxième option », indique le DSI adjoint. L'AMF a retenu la plateforme d'Hortonworks (HDP) en version 2.6, intégrée dans l'offre de Cloudera depuis son rachat fin 2018. « Aujourd'hui nous sommes passés à la version 2.6.5 et nous travaillons avec Cloudera pour migrer sur CDP », précise Ricardo Da Silva Mesquita. En raison de son métier et pour des questions de confidentialité des données, l'autorité de régulation a opté pour un déploiement on-premise. « L'AMF est adossée à l'ANSSI et nous nous conformons à ses préconisations en matière de sécurité », justifie le DSI adjoint. Au total, la plateforme compte une centaine de machines tous noeuds confondus, dont une dizaine de noeuds de données. Pour l'acquisition des données, l'AMF utilise un cluster Akka, avec Kafka pour compléter les données au fil de l'eau. Les analyses s'appuient sur Python et Spark, tandis que les traitements préparatoires sont réalisés en Python et Scala. « Nous avons voulu mettre en place une plateforme ouverte, qui nous permette d'utiliser différentes technologies », souligne Ricardo Da Silva Mesquita. Un système de gestion des dossiers a également été prévu, basé sur Jira, une solution habituellement utilisée par les équipes IT pour le traitement des tickets. « Chaque nouveau dossier ouvre un ticket dans Jira. Nous en faisons un usage très métier », pointe le DSI adjoint. Enfin, pour répondre aux exigences en matière d'usage et de partage des données, l'autorité a choisi les outils de visualisation de données de Tibco Spotfire. Ceux-ci fournissent des tableaux de bord prédéfinis pour l'analyse d'alertes. « Ces tableaux de bord permettent aux utilisateurs d'être plus autonomes, ils laissent à chacun la possibilité de créer leurs propres restitutions », pointe Iris Lucas.
L'IA pour répondre à certains cas d'usage
Le programme s'est échelonné entre 2016 et 2020, en suivant cinq grandes étapes alignées sur les priorités métiers. La première a porté sur l'intégration des données, en commençant par celles requises pour répondre aux exigences réglementaires de MIF2. Dans un second temps, l'équipe a travaillé sur l'automatisation des alertes, d'abord pour MIF2 puis sur d'autres aspects. Les étapes suivantes ont concerné les outils de requêtage et de visualisation de données, puis la mise en place de l'outil de suivi de dossier, au coeur du dispositif. Pour finir, l'équipe a déployé des technologies de machine learning et d'intelligence artificielle (IA), afin d'étendre et d'enrichir les capacités de traitement. « Certaines techniques d'IA ont été mises en place plus tôt, car elles étaient nécessaires pour répondre à certains cas d'usage », précise Iris Lucas. Dès fin 2018, les équipes ont ainsi commencé à travailler sur les technologies d'IA. « Nous sommes avant tout des consommateurs d'IA, nous utilisons ce qui existe pour répondre à nos besoins », souligne la responsable data intelligence. L'équipe a par exemple intégré des outils de NLP (traitement du langage naturel) pour extraire certaines informations de données textuelles. Elle étudie également l'usage du clustering (classification non supervisée) en complément des systèmes experts existants, basés sur des seuils. « Les seuils délimitent un périmètre fixe. L'IA permet de s'affranchir de paramètres trop stricts, afin de détecter des anomalies situées à la limite du périmètre » explique Iris Lucas. Son équipe compte actuellement deux doctorants, l'un travaillant sur le NLP, l'autre sur le traitement d'images. « À travers la visualisation, les analystes humains parviennent à différencier des séquences suspectes de séquences saines. Reproduire cette approche sous forme d'algorithme pourrait faciliter la détection », ajoute-t-elle.
Pour mettre en oeuvre le programme, l'AMF a monté une organisation robuste. Une équipe projet multidisciplinaire a été mise en place, incluant des analystes métiers et product owners ainsi que des profils plus techniques, comme des architectes et ingénieurs big data. Cette équipe, intégrée à la direction métier de détection des fraudes, représentait environ 10 ETP (équivalent temps plein) internes. En termes de gouvernance, deux niveaux de contrôle étaient prévus : un niveau de terrain, assuré par l'équipe ICY, et un second niveau assuré par des responsables externes au programme sur cinq axes : les ressources humaines, la formation et l'accompagnement au changement ; la gouvernance et la méthodologie ; l'architecture IT ; le budget et les risques. Enfin, pour le budget, les coûts de build avaient été évalués entre 11 et 13 millions d'euros : une fourchette qui a été tenue, alors même que des projets supplémentaires se sont ajoutés en cours de route. Huit objectifs stratégiques ont été fixés afin de suivre l'avancée et les résultats du programme. Tout d'abord, le programme devait permettre d'assurer une surveillance effective sur l'ensemble du périmètre de l'AMF et de détecter de façon efficace les abus. L'AMF avait également fixé des objectifs de productivité et d'utilité générale, les investissements réalisés devant être utiles à l'ensemble de l'organisation. La plateforme devait également permettre une appropriation facile du côté des utilisateurs, tout en étant pleinement maîtrisée par les équipes de l'AMF. Enfin, le programme devait respecter les axes de contrôle définis, de même que les jalons prévus dans le calendrier. Sur la base de ces objectifs, seize critères pour évaluer le succès ont été établis, ainsi que 46 indicateurs de mesure associés, pour un suivi à l'échelle opérationnelle.
Retranscrire les questions métiers pour les data scientists
Aujourd'hui, la plateforme mise en place gère des analyses avec différentes temporalités, réalisées aussi bien au fil de l'eau qu'à J+1 ou J+7. « Les prototypes sont adaptés, programmés et ordonnancés en fonction de ces échéances, afin que la plateforme réponde de la manière la plus efficiente possible », décrit Ricardo Da Silva Mesquita. Les bénéfices sont au rendez-vous, aussi bien en termes de performance pure que sur la pertinence des alertes. Fin 2017, alors que l'AMF utilisait encore l'ancien système, celui-ci intégrait 8 milliards de lignes par jour avec 12 heures de traitements. Actuellement, la volumétrie avoisine les 24 milliards de lignes quotidiennes, pour environ 4 heures par jour de traitements. « Nous continuons d'optimiser ces traitements pour gagner encore en performance », confie le DSI adjoint. L'une des clefs du succès, selon la responsable data intelligence, réside dans la forte implication des métiers et dans la présence de collaborateurs avec une double compétence dans l'équipe. « Il faut des personnes capables de poser la question métier et de la retranscrire en question de data science », observe Iris Lucas. Le projet a également permis de revoir en profondeur les algorithmes de détection. Certains ont été décommissionnés, d'autres améliorés. « Nous avons aussi créé de nouvelles alertes qui auparavant n'étaient pas possibles », ajoute Iris Lucas. Au total, toutes ces actions ont permis une réduction des faux positifs au niveau des alertes de fraudes. Enfin, la qualité des données s'est elle aussi améliorée.
En 2021, l'AMF a entrepris de structurer un nouveau programme autour des données, en capitalisant sur l'expérience acquise avec ICY. « Le but est de déployer une plateforme de données permettant de répondre de manière transverse à des besoins de toute l'AMF. Nous sommes actuellement en discussion rapprochée avec les métiers pour comprendre leurs besoins », confie le DSI adjoint.
Article rédigé par

Aurélie Chandeze, Rédactrice en chef adjointe de CIO
Suivez l'auteur sur Linked In,
Commentaire
INFORMATION
Vous devez être connecté à votre compte CIO pour poster un commentaire.
Cliquez ici pour vous connecter
Pas encore inscrit ? s'inscrire