Technologies

3 piliers du data management dans les projets de GenAI

Catégorisation, gouvernance et confidentialité, des fondamentaux de la gestion de data à ne pas oublier en amont des projets de GenAI. (Photo : Pixabay/GAltmann)

Les projets de GenAI, en particulier lorsqu'ils exploitent les data de l'entreprise, nécessite un travail sur la gestion des données. Autour de 3 piliers : la collecte, le filtrage et la catégorisation, la gouvernance et la protection de la propriété intellectuelle.

PublicitéLa majorité des entreprises se concentrerait désormais sur deux catégories de cas d'usage de l'IA générative, susceptibles d'offrir le meilleur ROI, si l'on en croît Doug Shannon, ambassadeur expert en automatisation et IA auprès du cabinet Gartner. La gestion des connaissances (KM) d'un côté, les modèles RAG (retrieval augmented generation) de l'autre. « Or, dans les deux cas, l'entreprise exploite ses propres données, ce qui a un coût », insiste Doug Shannon. En particulier, une mauvaise gestion des données dans ces deux types de projets peut à la fois dégrader le ROI et augmenter les coûts. C'est le cas par exemple pour la correction des hallucinations, causées par des données de mauvaise qualité, qui demande à la fois des ressources financières et en temps. Certains responsables informatiques réussissent néanmoins à tirer leur épingle du jeu en se concentrant sur trois piliers de la gestion de données.

Collecter, filtrer et catégoriser

Le premier consiste en une série de processus, la collecte, le filtrage et la catégorisation des données. Pour les modèles de KM ou de RAG, cela représente jusqu'à plusieurs mois de travail. Ces processus sont en effet assez simples à mettre en oeuvre lorsqu'on ne traite que des données structurées, mais il en va tout autrement avec les données non structurées, pourtant les plus précieuses. « Ce n'est qu'après avoir défini et intégré ces data non structurées dans une taxonomie qu'on peut les exploiter », poursuit Doug Shannon.

Certains outils du marché proposent du filtrage, qu'il s'agisse d'éliminer des PII (personaly identifiable information) ou des informations considérées comme toxiques pour un domaine particulier. Ils permettent de fixer des seuils ou, durant le processus de blending, de réarranger les quantités de data affectées aux différentes catégories concernées (30% de 15-25 ans et 15% de plus de 65 ans, par exemple, ou pour un module de formation, 20% d'employés du support et 25% d'avant-vente). Le filtrage, processus itératif, vise quant à lui à obtenir une plus grande qualité de données liées au domaine dans lequel l'entreprise travaille et au contexte ; une réponse précise pour la finance, par exemple, peut être complètement erronée pour les soins de santé. C'est également un moyen d'identifier les bons signaux et de générer des types de données similaires pour renforcer l'importance de ces signaux.

Gouvernance et conformité

Comme le rappelle Klara Jelinkova, vice-présidente et DSI de l'université de Harvard, « de nombreuses organisations se sont appuyées sur des datawarehouses ou des reportings de données structurées, mais beaucoup se tournent désormais vers les datalakes et la data fabric. Reste que plus les data sets grossissent avec l'IA générative, plus il est difficile d'assurer la qualité et la cohérence de ces data. » Pour résoudre ce problème, la DSI prône donc l'automatisation et l'évolutivité des contrôles de données.

PublicitéLe second pilier d'une gestion de données adaptée à la GenAI se trouve dans la gouvernance et la conformité des données. En 2023, le service informatique de Harvard a, par exemple, lancé son AI Sandbox, un environnement d'IA générative développé en interne et mis gratuitement à disposition de sa communauté d'utilisateurs. Le bac à sable offre un accès à plusieurs LLM différents pour favoriser l'expérimentation. Le service informatique de Harvard a également mis en place des programmes d'innovation ouverts à tous les projets utilisant de la GenAI.

Repenser la gouvernance pour les data non structurées

Des démarches qui ont poussé Klara Jelinkova à travailler sur la gouvernance des data. « Nous avons commencé avec des directives génériques d'utilisation de l'IA, juste pour nous assurer que nous avions les garde-fous nécessaires. Nous avions déjà mis en place une gouvernance des data depuis longtemps. Mais lorsqu'on commence à parler de pipelines de données automatisés, par exemple, il devient rapidement évident qu'il faut repenser les anciens modèles de gouvernance, principalement bâtis autour des données structurées. »

Autre domaine important lié à la gouvernance, la conformité. Harvard dispose par exemple d'un groupe de travail pour le suivi de l'AI Act européen. Tous les projets d'IA, avant leur mise en production, suivent un processus pour s'assurer que toutes les obligations de conformité sont satisfaites. Pour la DSI de l'université, il faut « disposer d'un cadre de conformité pour retravailler l'existant au fur et à mesure de l'évolution du paysage législatif ».

Confidentialité des données et protection de la propriété intellectuelle

Troisième et dernier pilier d'une gestion de données adaptée à la GenAI, la confidentialité et la protection de la propriété intellectuelle. En fouillant dans leurs données pour les projets de GenAI, certaines entreprises s'aperçoivent, par exemple, qu'elles ne connaissent pas dans le détail les contrôles d'accès associés à certaines d'entre elles. Ce qui signifie qu'elles n'ont aucune idée des données qui ont été partagées au sein de l'entreprise, voire avec l'extérieur.

Harvard dispose d'un programme complet de sécurité des données qui intègre la classification des données pour différents types d'IA. « Nous sommes très attentifs à la propriété intellectuelle », assure Klara Jelinkova. « Lorsque nous collectons des données pour concevoir un enseignement avec de l'IA, nous devons nous assurer que nous avons tous les droits de propriété intellectuelle sur toutes les données que nous allons lui fournir. »

Et parce qu'Harvard crée, comme la plupart des universités, une grande partie de sa propre propriété intellectuelle, elle doit également s'assurer qu'elle protège celle-ci. C'est assez simple avec des outils d'IA créés en interne. Mais lorsque des modèles publics sont utilisés, des mesures supplémentaires doivent être prises pour que les données sous propriété intellectuelle ne soient pas directement ou indirectement utilisées à des fins commerciales. Pour s'en assurer, Harvard met en place des protections contractuelles avec des éditeurs d'IA tiers.

« Lorsque vous exploitez vos propres données au sein de très grands modèles de fondation, il se trouve qu'il reste encore beaucoup de malentendus et peu de transparence sur ce qui est réellement fait de vos data », conclut Doug Shannon. « Microsoft utilise de nouveau OpenAI par exemple. Donc même lorsqu'ils affirment ne pas utiliser les données des utilisateurs et qu'ils vous donnent une longue liste d'actions contre lesquelles vous êtes censés être protégés, cela reste une boîte noire. »