Tribunes

IA générative : arrêtez le battage médiatique et intéressez-vous à l'injection de prompts

Imaginer une collaboration harmonieuse entre l'IA et l'homme suppose, à minima, de commencer par sécuriser une technologie aujourd'hui très friable. (Photo : Gerd Altmann / Pixabay)

Les promesses des milliardaires d'un avenir utopique grâce à l'IA ne nous aident pas à résoudre les graves problèmes que posent les modèles d'IA générative d'aujourd'hui. A commencer par la sécurité.

PublicitéParfois, le battage médiatique autour de l'IA est si ridicule qu'il nous détourne du travail important qui consiste à rendre la technologie fonctionnelle. Par exemple, on peut lire l'éloge de l'IA par Bill Gates et croire que, dans les cinq prochaines années, « vous direz simplement à votre appareil, en langage courant, ce que vous voulez faire ». Bien sûr ! Et peut-être donnerez-vous ces ordres en étant assis dans l'une des voitures entièrement autonomes qu'Elon Musk promet depuis une éternité (enfin, depuis dix ans, pour être juste).

Cet emballement généralisé risque de créer des attentes irréalistes qui peuvent avoir un impact négatif sur les investissements, en particulier dans les domaines de la sécurité. Même si nous atteignons l'utopie de Bill Gates, elle ressemblera davantage à une dystopie si nous ne parvenons pas à résoudre des problèmes tels que l'injection de prompts (ou invites) sur les grands modèles de langage (LLM).

La perfection de l'agent autonome et de la conduite autonome

M. Gates attend des agents d'intelligence artificielle depuis des décennies. Et nous ne parlons pas ici de Clippy 2.0 (feu le compagnon intégré à Microsoft Office). « Clippy a autant en commun avec les agents qu'un téléphone à cadran avec un appareil mobile », déclare Bill Gates. Et pourquoi ? Parce que « si elle est autorisée à suivre vos interactions en ligne et vos déplacements dans le monde réel, [l'IA] développera une connaissance approfondie des personnes, des lieux et des activités dans lesquels vous vous engagez ».

Vous savez, c'est un peu comme la publicité en ligne aujourd'hui. Si vous n'avez pas immédiatement pensé au parallèle - en pensant 'Ah, oui, la publicité en ligne et toutes ces publicités incroyablement personnalisées que je vois tous les jours' -, vous commencez maintenant à voir les problèmes que pose la vision de l'avenir de Bill Gates. Il explique comment l'IA va démocratiser les soins de santé, les services de soutien scolaire privés et bien d'autres choses encore... alors que l'humanité n'a pas toujours fait profiter les moins privilégiés de ses progrès.

Cela nous ramène à Elon Musk et à ses promesses répétées de voitures autonomes. Il est facile de prédire un avenir radieux, mais beaucoup plus difficile de le réaliser. Bill Gates peut bien explique que « les agents seront capables d'aider dans pratiquement n'importe quelle activité et n'importe quel domaine de la vie », et ce d'ici cinq ans, mais quiconque a déjà utilisé des outils d'IA tels que Midjourney pour retoucher des images le sait mieux que lui : les résultats sont généralement très mauvais, et pas seulement en termes de qualité. J'ai essayé de faire de mes collègues de travail des personnages de Mario Bros. J'ai découvert que les personnes d'origine caucasienne s'en sortaient mieux que les Asiatiques (qui ressemblaient à des amalgames grotesques des pires stéréotypes). Nous avons encore du chemin à faire.

PublicitéMais même si, par magie, nous pouvions faire faire à l'IA tout ce que Bill Gates affirme qu'elle sera capable de faire dans cinq ans, et même si nous parvenions à éliminer le type de préjugés mentionné plus haut, nous aurions encore des obstacles majeurs à franchir en matière de sécurité.

Les dangers de l'injection de prompts

« La clé pour comprendre la menace réelle de l'injection de prompts est de comprendre que les modèles d'IA sont profondément, incroyablement crédules de par leur conception », note Simon Willison. Ce dernier, co-créateur du framework Django notamment, est un des experts les plus enthousiastes quant au potentiel de l'IA en matière de développement de logiciels (et d'utilisation générale), mais il n'hésite pas non plus à souligner les domaines dans lesquels l'IA doit être améliorée : « Je ne sais pas comment la construire en toute sécurité ! Et ces failles ne sont pas hypothétiques, elles nous empêchent de mettre à disposition une grande partie de ce matériel technologique ».

Le problème est que les LLM croient tout ce qu'ils lisent, pour ainsi dire. Par construction, ils ingèrent du contenu et répondent à des prompts. Ils ne savent pas faire la différence entre un bon et un mauvais prompt. Ils sont crédules. Comme le dit Simon Willison, « ces modèles croient tout ce qu'on leur dit. Ils ne disposent pas d'un bon mécanisme pour prendre en compte la source d'information ». Cela ne pose pas de problème s'il s'agit simplement de demander à un LLM de rédiger un mémoire (ce qui a des implications éthiques, mais ne soulève pas de problématique de sécurité), mais que se passe-t-il dès que l'on commence à fournir au LLM des informations sensibles sur l'entreprise ou des informations personnelles ?

Et il ne suffit pas de dire 'Mon LLM privé est local et hors ligne'. Comme l'explique Simon Willison, « si votre LLM lit des courriels que des personnes vous ont envoyés ou des pages web que des personnes ont écrites, ces personnes peuvent injecter des instructions supplémentaires dans votre LLM privé ». Autrement dit, « si votre LLM privé a la capacité d'effectuer des actions en votre nom, des attaquants peuvent également effectuer des actions en votre nom ». Par définition, poursuit Simon Willison, l'injection de prompts est « un moyen pour les attaquants d'introduire furtivement leurs propres instructions dans un LLM, en faisant croire à ce dernier que ces instructions proviennent de son propriétaire ».

Tout ce que ledit propriétaire peut faire, les attaquants peuvent le faire. Avec cette technique, le phishing et les malwares atteignent ainsi un tout autre niveau. Et, par contraste, les injections SQL sont simples à corriger. Comme l'écrit le Radical Briefing dans un billet au titre évocateur (« L'injection de prompts dans l'IA générative : la nouvelle injection SQL, en pire') : « C'est comme si nous avions codé une boîte de Pandore numérique - exceptionnellement brillante, mais suffisamment crédule pour faire des ravages si on lui donne les mauvaises instructions. »

L'IA ne se protégera pas toute seule

Lorsque nous commencerons à déployer des agents d'IA dans des fonctions d'interaction avec un public, le problème s'aggravera. Bien que ces questions soient épineuses, comme l'explique en détail Simon Willison, elles ne sont pas insolubles. À un moment donné, nous trouverons comment « apprendre à une IA à ne divulguer des données sensibles qu'après une certaine forme d'authentification », comme le suggère Leon Schmidt. Mais trouver ce mode authentification n'est pas trivial (et l'IA ne sera pas d'une grande aide pour se sécuriser elle-même).

Cela fait des années que nous nous trompons sur l'IA, en annonçant la fin des radiologues, des développeurs de logiciels, etc. « ChatGPT pourrait s'étendre jusqu'à Terminator dans cinq ans, ou dans cinq décennies, ou peut-être pas. Nous n'en savons rien », dit l'analyste Benedict Evans dans le Financial Times. Il a raison. Nous ne savons pas. Ce que nous savons par contre, c'est que si l'on n'investit pas davantage dans la sécurité de l'IA, le battage médiatique techno-béat sur l'IA débouchera sur une catastrophe. Nous devons résoudre le problème de l'injection de prompts.