Projets

A la Société Générale, Laci brasse les données non structurées

Martina Machet, Head of Data Intelligence and Products de la banque de détail en France de la Société Générale, et Kent Aquereburu, responsable du Datalab et des produits d'IA de Société Générale Assurances. (Photo : D.R.)

La Société Générale a développé une approche couplant recherche et IA générative pour piocher dans ses bases de données documentaires. L'outil en question doit être prochainement déployé auprès des employés de la banque de détail en France.

Publicité« Être en mesure de proposer une forme d'intelligence sur les contenus peut changer la donne dans nos métiers où des tonnes de documents sont dispersées un peu partout ». Martina Machet, Head of Data Intelligence and Products de la banque de détail en France de la Société Générale, pointe d'emblée la principale attente des banques et assurances vis-à-vis de l'IA générative. Habituellement, au sein de la Société Générale comme dans d'autres établissements du secteur, l'accès à l'information non structurée passe par une recherche classique, renvoyant un grand nombre de documents que les utilisateurs doivent explorer pour y dénicher l'information pertinente. Un processus fastidieux et qui demande beaucoup de temps.

D'où l'idée de la banque de placer entre les mains de ses quelque 20 000 collaborateurs en France un assistant intelligent, combinant recherche dans le corpus réglementaire et génération d'une réponse, via la GenAI. L'outil ainsi développé, baptisé Laci (pour L'assistant de contenus intelligents), effectue ses recherches dans une base de quelque 10 000 documents, en identifiant les paragraphes pertinents pour que la GenAI génère une réponse contextualisée, via une approche RAG (Retrieval Augmented Generation). Dans son interface, l'outil conserve un lien vers les documents source et les paragraphes pertinents à l'intérieur de ceux-ci. Laci embarque également une fonction permettant aux utilisateurs d'évaluer la pertinence des réponses fournies, une capacité jugée indispensable par les équipes de la Société Générale dès les phases amont du projet.

Un modèle exportable à d'autres métiers

« Si on parvient à faire économiser 30 minutes, voire 5 minutes seulement, par jour à chacun de nos employés, le gain sera énorme, calcule Martina Machet, qui s'exprimait lors d'AI for Finance, un événement organisé le 17 septembre, à Paris. Ce type d'outils facilite également l'intégration des nouveaux employés et améliore la satisfaction des collaborateurs, donc par ricochet, celle des clients. » Actuellement testé lors d'une phase pilote, Laci est mis entre les mains de quelques centaines d'utilisateurs. « Nous espérons peu à peu passer à l'échelle, en intégrant nos différentes filiales », dit la responsable.

Comme le note Kent Aquereburu, responsable du Datalab et des produits d'intelligence artificielle de Société Générale Assurances, le modèle de Laci est par ailleurs adaptable à d'autres métiers du groupe. « Il suffit de régler l'approche RAG pour un métier spécifique, avec le bon vocabulaire et le bon corpus documentaire. » D'ores et déjà, l'outil a été customisé pour lancer un assistant dédié aux questions légales et de taxation en matière d'assurance.

A chaque cas d'usage son LLM ?

PublicitéCes tests sur des corpus documentaires variés ont permis à la Société Générale de réaliser qu'il est illusoire d'espérer voir un LLM répondre efficacement à tous les cas d'usage. « Il y énormément d'aspects à vérifier, pour chaque cas d'usage et chaque modèle : le coût, la pertinence d'un choix Open Source, l'efficacité de la stratégie basée sur le prompting, le besoin de régler le modèle, le recours à un modèle de petite taille, etc. », reprend Kent Aquereburu. Façon de dire qu'espérer une réponse unique est illusoire. Et que les entreprises ont besoin d'un point d'accès aux divers LLM leur offrant une liberté de choix.

« Dans l'IA générative, vous êtes sur un terrain mouvant, reprend le responsable. Vous devez donc diviser votre pipeline en différentes parties décorrélées l'une de l'autre afin de remplacer un élément quand il n'offre pas le niveau de performances attendu. Sachant que c'est la partie recherche qui est la plus importante dans un pipeline RAG. » Autre aspect sur lequel veiller soigneusement avant tout passage en production : les hallucinations, qui, dans un contexte professionnel, sont susceptibles de détruire toute confiance en l'outil au sein des métiers. Et ce, alors que ce phénomène, intrinsèque aux LLM, ne peut être totalement évité, même avec le RAG, selon Kent Aquereburu : « vous devez régler avec soin votre modèle pour trouver la bonne frontière à partir de laquelle il répondra aux utilisateurs : 'Je ne sais pas'. C'est essentiel pour la confiance de ces derniers. »

Qualité de la donnée non structurée : un chantier à part entière

Comme le relève Martina Machet, ces questions relatives à la performance et à la fiabilité des modèles mis entre les mains des utilisateurs font rapidement ressurgir l'importance de la qualité de données. « C'est encore plus vrai avec la GenAI qu'avec d'autres technologies, les utilisateurs perdant généralement tout recul critique vis-à-vis des réponses qu'elle fournit », assure la responsable de la banque de détail. Dans le cas de la recherche sur des documents, cela signifie un saut quantique dans la gouvernance de ces sources d'information, pour éviter les versions multiples d'un même document, les duplications, etc.

Une difficulté à laquelle s'est d'ailleurs heurtée Laci dans sa phase pilote, la capacité de l'outil à retrouver le bon document restant perfectible comme l'ont souligné les premiers utilisateurs. « Couvrir l'ensemble des bases de données documentaires est un réel défi. Nous travaillons sur quelques évolutions qui seront disponibles dès le mois prochain afin d'améliorer le niveau de performances et être en mesure de passer à l'échelle », reprend Martina Machet. Et peut-être demain à revoir les processus existants eux-mêmes ? « A mesure que son fonctionnement est de mieux en mieux compris par les utilisateurs, la GenAI nous pousse à repenser la structure même des documents afin d'améliorer les performances de l'outil de recherche ».