Technologies

Une IA sécurisée ? Un voeu pieux, selon la Red Team IA de Microsoft

Si elle liste quelques constats utiles pour prévenir les attaques contre l'IA, la Red Team AI de Microsoft prévient aussi de l'impossibilité de protéger complètement l'IA. (Photo : G.Altman/Pixabay)

Même l'équipe de hackers éthiques de l'IA de Microsoft émet des doutes lorsqu'on évoque une IA sécurisée. Dans un article de recherche du 13 janvier dernier, ses membres, avec d'autres auteurs, arrivent à une conclusion sur ce sujet qui apporte certes quelques réponses, mais soulève aussi de nouvelles questions.

PublicitéLa Red Team, autrement dit l'équipe de hackers éthiques de Microsoft, qui s'occupe de plus de 100 produits de GenAI chez l'éditeur, affirme que la conception de systèmes d'IA sécurisés et sûrs est une tâche qui ne peut être achevée. Dans un article publié cette semaine, les auteurs, dont Mark Russinovich, CTO et deputy CISO de Microsoft Azure, ont décrit une partie du travail de l'équipe sous la forme de huit recommandations pour « aligner des efforts de Red Teaming avec les risques du monde réel ».

L'auteur principal, Blake Bullwinkel, chercheur en AI safety au sein de cette Red Team IA de Microsoft, et ses 25 co-auteurs expliquent : « à mesure que les systèmes de GenAI sont adoptés dans un nombre croissant de domaines, le "Red Teaming" devient une pratique essentielle pour évaluer la sûreté et la sécurité de ces technologies. » Et de poursuivre : « Le rôle de la Red Team est de repousser les limites en matière de sécurité au-delà des références de sécurisation de modèles, et ce, en émulant des attaques du monde réel sur les systèmes complets, de bout en bout. Cependant, de nombreuses questions demeurent quant à la façon dont les opérations de Red Teaming en IA devraient être menées et il existe une bonne dose de scepticisme quant à l'efficacité des efforts actuels. »

Le recours à l'automatisation des tests

Le document rappelle que, lors de sa création en 2018, la Microsoft AI Red Team (AIRT) se concentrait principalement sur l'identification des vulnérabilités de sécurité traditionnelles et des attaques en évasion contre les modèles classiques de machine learning. « Depuis lors, raconte l'article, le périmètre d'action tout autant que la taille de l'AIRT ont considérablement augmenté en réponse à deux tendances majeures. » En premier lieu, l'IA est devenue beaucoup plus sophistiquée et, en second lieu, les récents investissements de Microsoft dans l'IA ont entraîné le développement de beaucoup plus de produits nécessitant une Red Team.

Une double tendance qui a « rendu les tests entièrement manuels impraticables, nous obligeant à intensifier nos opérations à l'aide de l'automatisation », écrivent les auteurs. « [Pour atteindre] cet objectif, nous avons développé Pyrit, un cadre Python open source que nos opérateurs utilisent beaucoup pour les opérations de Red Teaming. » En augmentant le poids du jugement humain et de la créativité dans les analyses et les décisions, Pyrit a permis à AIRT d'identifier plus rapidement les vulnérabilités à fort impact et de couvrir une plus grande partie du paysage de risques.

Les auteurs ont donc décidé de partager huit constats tirés de leur expérience dans l'article de recherche.

« Il faut comprendre ce que le système peut faire et où il est utilisé ». La première étape d'une opération de Red Teaming d'IA consiste à déterminer les vulnérabilités à cibler. « En partant des impacts potentiels en aval, plutôt que des stratégies d'attaque, il est plus probable qu'une opération produise des résultats utiles liés aux risques du monde réel, suggèrent les auteurs. Une fois que ces impacts ont été identifiés, la Red Team peut travailler à rebours et décrire les différentes voies qu'un adversaire pourrait emprunter pour les atteindre ».

Publicité« Inutile de savoir calculer des gradients pour casser un système d'IA ». Pour le prouver, l'article fait référence à une étude sur l'écart entre la recherche et la pratique du machine learning antagoniste (étude des attaques sur les algorithmes de machine learning et des moyens de les prévenir). Ce document explique que « bien que la plupart des recherches sur le machine learning soient axées sur le développement et la défense contre des attaques sophistiquées, les attaquants du monde réel ont tendance à utiliser des techniques beaucoup plus simples pour atteindre leurs objectifs ». Certes, les attaques basées sur le gradient, par exemple, sont puissantes, « mais elles sont souvent peu pratiques ou inutiles. Nous recommandons de privilégier la reproduction de techniques simples et d'orchestrer des attaques au niveau du système, car il est plus probable que ce soit le type d'attaque tenté par de véritables adversaires ».

« Le Red Teaming de l'IA n'est pas un benchmark de sécurité ». Ce sont deux démarches distinctes, insistent les auteurs de l'article, mais « toutes deux sont utiles, voire complémentaires ». Les benchmarks permettent ainsi de comparer facilement les performances de plusieurs modèles sur un ensemble de données commun. Le Red Teaming de l'IA, lui, nécessite beaucoup plus de ressources humaines, mais peut identifier de nouvelles catégories de dommages et explorer des risques contextualisés. Les nouveaux préjudices résultant des nouvelles capacités des systèmes d'IA peuvent ne pas être entièrement compris, de sorte que l'équipe doit les définir et créer des outils pour les mesurer.

« L'automatisation pour aider à couvrir un paysage de risques plus important ». Selon les auteurs, la « complexité du paysage des risques liés à l'IA a conduit au développement d'une variété d'outils capables d'identifier les vulnérabilités plus rapidement, d'exécuter automatiquement des attaques sophistiquées et d'effectuer des tests à une échelle beaucoup plus grande ». L'automatisation dans le Red Teaming de l'IA joue un rôle essentiel, ce qui a conduit au développement de Pyrit chez Microsoft.

« L'élément humain est crucial dans le Red Teaming de l'IA ». Même si l'automatisation est importante pour soutenir les opérations de hacking éthique en générant des prompts, en orchestrant des attaques et en marquant des réponses, poursuivent les auteurs, « les connaissances culturelles et thématiques des humains restent indispensables, ainsi que leur intelligence émotionnelle ».

« Les dommages causés par l'IA responsable sont omniprésents, mais difficiles à mesurer ». Autrement dit, les dommages directement causés par l'IA, en particulier l'IA dite responsable, sont plus difficiles à appréhender que les vulnérabilités de sécurité proprement dites, préviennent les auteurs. Tout cela a à voir avec « des différences fondamentales entre les systèmes d'IA et les logiciels traditionnels ». La plupart des recherches sur la sécurité de l'IA se concentrent sur les utilisateurs-adversaires, ceux qui brisent délibérément les garde-fous. En réalité, insistent les co-auteurs de l'article, « les utilisateurs apparemment inoffensifs qui génèrent accidentellement du contenu nuisible sont aussi importants, voire davantage ».

« Les LLM amplifient les risques de sécurité existants et en introduisent de nouveaux ». L'intégration de modèles de GenAI dans un éventail de plus en plus grand d'applications a introduit de nouveaux vecteurs d'attaque et modifié le paysage des risques de sécurité. Les auteurs encouragent ainsi « les Red Teams IA à prendre en compte à la fois les risques existants (généralement au niveau du système) et les nouveaux risques (généralement au niveau du modèle) ».

« Le travail de sécurisation des systèmes d'IA ne sera jamais terminé ». L'idée qu'il serait possible de garantir la sécurité de l'IA, ou de résoudre cette question, par les seules avancées techniques est irréaliste et néglige les rôles que peuvent jouer les dynamiques économiques, les cycles "défaillance-réparation" (break-fix) et la réglementation. Le document souligne ainsi qu'« en l'absence de garanties de sécurité, nous avons besoin de méthodes pour développer des systèmes d'IA aussi difficiles à casser que possible. L'une des façons d'y parvenir est d'utiliser des cycles de "défaillance-réparation", qui comprennent plusieurs séries de Red Teaming et d'atténuation du danger jusqu'à ce que le système soit robuste face à un large éventail d'attaques. »

Le Red Teaming, une pratique naissante

Les auteurs concluent en rappelant que le Red Teaming de l'IA reste une pratique naissante et en évolution rapide pour identifier les risques de sûreté et de sécurité posés par les systèmes d'IA. Mais ils soulèvent aussi un certain nombre de questions. Pour commencer : « comment rechercher des éléments dangereux au sein des LLM comme la capacité de persuasion, la tromperie ou la réplication ? ». « Quels nouveaux risques examiner dans les modèles de génération de vidéos ? Et quelles sont les fonctions qui pourraient émerger dans des modèles plus avancés que l'état de l'art actuel ? ». Autre question : comment les Red teams peuvent-elles ajuster leurs pratiques aux différents contextes linguistiques et culturels ? Et enfin, de quelle manière standardiser les pratiques de Red Teaming pour que les équipes communiquent plus facilement leurs résultats ?