Stratégie

Le choc des factures de la GenAI pousse les DSI à réagir

Optimiser l’usage des services de GPU, se tourner vers des modèles plus petits... : les DSI cherchent des pistes pour réduire les coûts de l’IA générative. (Photo : Steve Buissinne/Pixabay)

Après les expérimentations à tout-va, l'heure des comptes a sonné. Sur un marché de l'IA générative dominé par un seul fabricant de microprocesseur, les factures dépassent souvent les anticipations budgétaires, incitant les DSI à trouver des parades permettant de limiter les coûts.

PublicitéLes premières factures des expérimentations de l'IA générative arrivent et c'est la soupe à la grimace. De nombreux DSI trouvent l'addition plus salée qu'ils ne le souhaiteraient, même si certains ne peuvent s'en prendre qu'à eux-mêmes. « Nous sommes revenus à ce mode de dépenses frénétiques que nous avons connu aux débuts du cloud », résume James Greenfield, vice-président d'AWS Commerce Platform, lors de la conférence FinOps X qui s'est tenue à San Diego en juin.

J.R. Storment, directeur exécutif de la FinOps Foundation, organisation de la Linux Foundation visant à faire avancer le contrôle des dépenses des services cloud, ne dit pas autre chose : « cela rappelle beaucoup les premiers temps du cloud, lorsque les dépenses étaient libres, tout le monde essayant de mettre en oeuvre le cloud - et aujourd'hui la GenAI -, mais avec peu ou pas de contrôle des coûts ou peu ou pas de gouvernance associée ».

Nvidia : 'gatekeeper' de la GenAI

Pour contrer ce phénomène, et en prévision de nouveaux projets autour de cette technologie, certains DSI explorent une série d'approches et de méthodes pour réduire le coût des tests et des applications de l'IA générative.

Selon une étude d'IDC (Generative AI Pricing Models : A Strategic Buying Guide), le paysage de la tarification de l'IA générative est rendu complexe par les « interdépendances au sein de la stack technologique ». Et il n'existe aucun moyen de contourner les surcoûts de l'IA générative parce que l'infrastructure de base nécessaire pour entraîner et paramétrer les modèles est « largement fournie par une seule société : Nvidia », relève IDC.

Dans l'attente d'un approvisionnement plus important en GPU, de nombreux clients se tournent vers des fournisseurs de services spécifiques à l'IA, ainsi que vers des offres de cloud (public et privé) pour héberger leurs applications de GenAI, notamment le cloud de Nvidia, AWS Trainium et Infertia ou encore Google Tensor Processor Units, d'après une autre étude IDC (Market Glance : Generative AI Foundation Models). Les DSI se tournent également vers des fournisseurs tels que Dell (Project Helix) ou HPE (GreenLake), toujours selon IDC.

GPU as-a-service : une réponse partielle

Les fournisseurs de services d'IA, parfois aussi appelés « AI hyperscalers », proposent du GPU-as-a-service, permettant aux entreprises d'acheter de la puissance GPU à la demande afin de limiter leurs dépenses. On y retrouve notamment CoreWeave, Equinix, Digital Realty et Paperspace, ainsi que le leader des GPU, Nvidia, ainsi que, dans une certaine mesure, les hyperscalers du cloud Microsoft, Google et AWS. IBM, Oracle, Dell et Hewlett Packard Enterprise proposent également du GPU-as-a-service. Ou encore, en France, des hébergeurs comme Outscale, OVH ou Scaleway.

PublicitéCette approche à la demande permet de réduire considérablement les coûts initiaux liés à l'achat de processeurs et d'augmenter ou de réduire les capacités en fonction de la charge, note Tom Richer, ancien DSI et actuel Pdg de CloudBench, un partenaire de Google et cabinet de conseil. « Pour répondre aux besoins des DSI, les fournisseurs offriront diverses options comme des instances de machines virtuelles avec différentes configurations de GPU et des instances ponctuelles proposant une puissance de calcul réduite », explique-t-il, ajoutant que les frameworks d'IA conteneurisés peuvent également aider les responsables informatiques à garantir une utilisation efficace des ressources. « En comprenant bien les options à disposition et en tirant parti du GPU-as-a-service, les DSI peuvent optimiser les coûts matériels de la GenAI tout en disposant de puissance de calcul pour l'innovation. »

Payer les fournisseurs au résultat

Mais les DSI qui s'intéressent au GPUaaS - et à d'autres solutions d'IA générative basées sur le cloud - ne s'affranchissent pas des problématiques de maîtrise et de limitation des coûts, notee J.R. Storment de la FinOps Foundation. « Dans certains cas, nous voyons le coût de l'IA commencer à avoir un impact négatif sur les budgets cloud, dit-il. En fin de compte, de nombreux DSI ne savent toujours pas quelle valeur ils retirent des expérimentations autour de l'IA. Dans de nombreux cas, les coûts de l'IA grimpent en flèche, ce qui alimente une vague d'intérêt sur la façon de faire du FinOps pour l'IA, en appliquant les mêmes principes de visibilité sur les coûts que dans le FinOps appliqués aux coûts au cloud. »

Brian Shield, directeur technique des Red Sox, l'équipe de baseball de Boston, et de Fenway Sports Management, estime que pour maîtriser les coûts, les DSI devraient déployer de manière sélective la GenAI dans des domaines clés de l'entreprise et mettre en oeuvre un processus d'évaluation dédié pour éviter les chevauchements de projets et la prolifération de cette technologie.

Et il envisage également de négocier les coûts en fonction de la qualité des résultats. « J'ai proposé de payer les fournisseurs de GenAI au cas par cas. En d'autres termes, si l'outil fonctionne bien, c'est-à-dire s'il est adapté à la production, je paierai X. Pour les solutions dont la précision est inférieure à 90 %, s'il existe encore des cas d'utilisation viables, je paierai Y », détaille Brian Shield. « Si vous pouvez améliorer votre outil, je vous ferai passer dans le groupe le mieux payé. Tous les fournisseurs hésitent, mais je suis toujours en pourparlers avec certains. »

D'autres DSI profitent des avantages liés à leurs accords de licence d'entreprise avec les principaux fournisseurs de cloud et d'IA tels que Microsoft, Google et AWS. « Nous avons choisi MS Copilot pour son périmètre d'application très large, qui, selon nous, répondra à environ 80 % de nos besoins, indique Bob Brizendine, le DSI d'American Honda, la filiale nord-américaine du Japonais. Cela fait partie de notre accord de licence existant avec Microsoft, ce qui nous permet de rationaliser les coûts de manière efficace. »

Compter sur l'évolution du marché ?

John Marcante, DSI en résidence chez Deloitte et ancien DSI de Vanguard, considère que l'innovation devrait permettre d'alléger graduellement la facture. « Le coeur de l'IA générative réside dans les GPU, dit-il. Or, ces puces évoluent rapidement pour répondre aux exigences de l'inférence et de l'entraînement en temps réel. À mesure que nous avançons dans ce cycle d'innovation, il faut s'attendre à ce que les GPU deviennent plus efficaces, plus performants et plus spécialisés pour les applications d'IA ».

Les fournisseurs et plateformes de GPU-as-a-service commencent également à proposer des solutions clés en main pour le marketing, la finance, le juridique et les processus clients afin de permettre aux entreprises de se concentrer sur leurs compétences de base, souligne John Marcante.

Par ailleurs, il estime que certaines organisations construiront leurs propres plateformes d'IA générative, en les adaptant à leurs exigences spécifiques. « Cette approche garantit la propriété et la personnalisation », dit-il, notant que la collaboration avec des fournisseurs d'IA à l'image des partenariats actuels entre entreprises et fournisseurs de cloud constitue une autre voie. « Ces modèles iront de la location de GPU à des services d'IA complets », estime-t-il

Faire la différence par le modèle

L'évolution rapide des grands modèles de langage (LLM) a également permis de mieux comprendre comment adapter les résultats et réduire les coûts. Par exemple, les DSI disposant d'un budget limité peuvent réduire les coûts en utilisant des modèles Open Source, souligne Bern Elliott, analyste au cabinet d'études Gartner. « L'Open Source est un moyen pour les DSI de contenir les coûts », juge-t-il, soulignant que les modèles de ce type sont également plus transparents et peuvent être plus simplement personnalisés.

L'utilisation de modèles plus petits et spécifiques à un domaine pour des tâches de moindre envergure est un autre moyen pour les DSI de réduire le coût de l'IA générative. « Les GPU sont incroyablement chers. Tout le monde est en train de chercher la bonne réponse, car l'option consistant à proscrire la GenAI n'est pas sur la table », résume Chris Bedi, directeur clients chez ServiceNow. « Le fait de disposer de modèles spécifiques à un domaine nous aide à maîtriser nos coûts, ce qui nous permet de répercuter cet avantage sur nos clients », assure-t-il.

Exemple avec RunPod, qui offre du GPU-as-a-service pour les développeurs et est très utilisé par les universités et startups. Les étudiants de l'université OpenCV et d'une spinoff spécialisée dans le conseil en IA, par exemple, utilisent RunPod pour entraîner des modèles d'IA, explique Satya Mallick, docteur en sciences et Pdg d'OpenCV.org. « Pour une petite entreprise comme la nôtre, qui a besoin de plusieurs GPU haut de gamme pour quelques jours ou quelques semaines seulement, RunPod s'avère extrêmement rentable, car nous n'avons pas à supporter l'énorme coût initial de l'achat de GPU ». L'équipe d'OpenCV teste également la solution serverless de RunPod.

L'épée de Damoclès des coûts énergétiques

Les DSI sont également attentifs à la consommation d'énergie des applications d'IA générative, qui représente un autre coût important à prendre en compte. « L'IA est gourmande en calcul et elle a un impact sur les datacenters à l'échelle mondiale », relève Bryan Muehlberger, ancien DSI de la marque de vêtements Vuori et actuellement CTO de Schumacher Homes, un constructeur de maisons individuelles. « Si nous ne résolvons pas nos problèmes d'énergie au niveau national, ce problème finira par prendre de l'ampleur et les coûts seront répercutés sur les entreprises qui utilisent les services », pronostique-t-il.

En complément :
- IA générative Open Source : méfiez-vous des imitations

OpenAI sort un ChatGPT 'low cost'

Une forme de prise de conscience d'OpenAI des coûts trop élevés de l'IA générative ? En tout cas, l'éditeur de ChatGPT a publié jeudi 18 juillet une version plus réduite et moins chère de son modèle GPT-4o. Le modèle est plus de 60 % moins cher que GPT-3.5 Turbo, selon la société. « Nous pensons que le GPT-4o mini élargira considérablement la gamme d'applications bâties avec l'IA en rendant l'intelligence beaucoup plus abordable », écrit OpenAI dans un billet de blog. GPT-4o mini prend en charge le texte et les images dans son API. Le LLM est disponible dans les contrats ChatGPT Free, Plus et Team, en remplacement de GPT-3.5.

En avril, Microsoft a publié sa famille Phi-3 constituée de petits modèles de langage, présentés comme ouverts. De son côté, Google a dévoilé dès février un ensemble de petits modèles, baptisés Gemma. La plateforme spécialisée dans les modèles ouverts Hugging Face donne également accès à une grands nombres de SLM (Small Language Model).