Projets

Comment DeepSeek modifie l'équation de la GenAI pour les DSI

Comment DeepSeek modifie l'équation de la GenAI pour les DSI
Si DeepSeek ne remet pas en cause les fondements techniques de la GenAI, les pistes exploitées par ses développeurs sont susceptibles de bousculer l’équation économique des projets. (Photo : Solen Feyissa / Unsplash)

L'explosion du modèle d'IA générative chinois est susceptible d'intensifier la concurrence sur le marché, de stimuler l'innovation, de réduire les coûts et de rendre les projets plus abordables. Il est peut-être temps pour les DSI de réévaluer leurs stratégies en matière d'IA, estiment les analystes du Gartner, d'IDC et de Forrester.

PublicitéLa startup chinoise DeepSeek a fait grand bruit fin janvier en dévoilant une version Open Source de son modèle de raisonnement, DeepSeek-R1, revendiquant des performances supérieures à celles du modèle transformer pré-entraîné (soit pre-trained transformer ou GPT) o1 d'OpenAI.

Cette nouvelle a conduit Nvidia, principal fabricant des GPU utilisés pour alimenter l'IA dans les datacenters, à perdre près de 600 Md$ de capitalisation boursière en une journée, car les innovations de DeepSeek, selon Gartner, semblent utiliser des ressources nettement moins avancées, offrant des performances comparables à celles d'autres LLM de premier plan pour une fraction du coût de ceux-ci.

« Les avancées de DeepSeek pourraient conduire à des solutions d'IA plus accessibles et abordables, mais elles nécessitent également un examen minutieux des facteurs stratégiques, concurrentiels, de qualité et de sécurité », souligne Ritu Jyoti, vice-président et directeur général de la recherche sur l'IA, l'automatisation, les données et l'analytique au sein de la pratique de recherche et de conseil sur le marché des logiciels d'IDC.

L'approche dominante bousculée

Chirag Dekate, analyste et vice-président au sein du cabinet Gartner, spécialisé dans les technologies quantiques, l'IA, la R&D numérique et les technologies émergentes, estime que le marché réagit de manière excessive à la fois aux détails techniques de ce qui a été nécessaire pour former DeepSeek et à la source de l'innovation elle-même.

« Cela alimente la perception d'une opposition entre nous [Chirag Dekate exprimant un point de vue américain, NDLR] et des tiers encore inconnus, ainsi qu'un sentiment de chauvinisme ou de nationalisme », explique-t-il. « Ces récits s'imposent parce qu'ils captent l'imagination plus rapidement que n'importe qui double-cliquant sur le rapport technique. Les détails qui y figurent sont moins glamour que ce que les gros titres en ont dit. »

Il ne s'agit pas pour autant de négliger les innovations de DeepSeek. Dans une note de recherche, Gartner indique que l'éditeur chinois remet en question les structures de coûts et les méthodologies dominantes en matière d'IA, soulignant les inefficacités des modèles de tarification des principaux fournisseurs actuels qui peuvent déboucher sur des retours sur investissement négatifs, y compris pour des cas d'usage porteurs de valeur et déployés à grande échelle.

« Le modèle R1 de DeepSeek représente donc un changement décisif, suggérant que l'avenir de l'IA générative réside dans des approches innovantes et rentables plutôt que dans le paradigme traditionnel de la mise à l'échelle par la force de calcul pure », ont écrit les chercheurs de Gartner, dont Haritha Khandabattu, Jeremy D'Hoinne, Rita Sallam, Leinar Ramos et Arun Chandrasekaran, dans une note de recherche publiée la semaine dernière.

PublicitéUn jeu plus ouvert

Peter Rutten, vice-président de la recherche pour l'informatique haute performance au sein du cabinet IDC, explique que les résultats de DeepSeek montrent que l'approche actuelle d'entraînement des IA - qui repose sur la théorie selon laquelle l'IA ne peut s'améliorer qu'avec des architectures plus grandes, plus nombreuses et plus rapides - n'est pas justifiée. « Les nouvelles approches en matière d'algorithmie, de frameworks et de logiciels pour le développement de l'IA donnent des résultats comparables, voire meilleurs, que, par exemple, la dernière version de ChatGPT. Ils atteignent le même niveau de précision pour une fraction du coût en termes d'infrastructure, explique-t-il. Cela signifie que l'entraînement de l'IA n'a pas besoin d'être l'apanage des grandes entreprises qui peuvent se permettre d'investir des milliards de dollars dans la construction de grandes infrastructures. »

L'approche développée par DeepSeek montre que le développement d'une IA générative à grande échelle est à la portée d'un grand nombre d'entreprises du point de vue du coût et de l'empreinte environnementale. « Les initiatives d'IA de taille moyenne ou petite deviennent également beaucoup plus abordables, y compris la personnalisation ou le réglage fin d'un modèle, ainsi que l'inférence sur un modèle, ajoute-t-il. Je pense que l'IA deviendra abordable - peut-être, avec le temps, aussi abordable que n'importe quelle application - grâce au type de technologies développées par DeepSeek. »

Un intérêt profond pour les DSI

Chirag Dekate estime que la nouvelle concernant DeepSeek rappelle une fois de plus l'accélération de l'innovation en matière d'IA. Les DSI doivent donc explorer sans attendre la GenAI, si ce n'est pas déjà fait, faute de quoi leur stratégie risque de devenir obsolète. « Les DSI ont le choix entre sauter le pas, commencer à expérimenter, créer des stratégies d'IA générative, de mise en oeuvre et de déploiement dès aujourd'hui, ou prendre tellement de retard qu'il ne sera même plus envisageable de le rattraper », déclare-t-il.

Même si le marché réagit de manière excessive à aux annonces de DeepSeek, l'analyste du Gartner estime qu'il s'agit d'un signe clair montrant aux DSI qu'ils ne peuvent plus se permettre d'attendre. « DeepSeek montre que les vecteurs de coûts de la GebnAI sont en voie d'optimisation », dit-il.

Ritu Jyoti d'IDC note que Kai-Fu Lee, président-directeur général de Sinovation Ventures, qui a été directeur fondateur de Microsoft Research Asia et ancien président de Google China, a prédit l'année dernière que les startups chinoises spécialisées dans l'IA se concentreraient sur la création de gains d'efficacité. « En fouillant dans leurs méthodes, il est évident que tout tourne autour de l'apprentissage par renforcement et de la manière dont ils l'utilisent, indique l'analyste. La plupart des modèles de langage utilisent une combinaison de pré-entraînement, de fine-tuning supervisé, puis d'apprentissage par renforcement pour peaufiner les résultats. L'approche de DeepSeek montre que les LLM sont capables de raisonner avec le seul apprentissage par renforcement. »

Une optimisation, pas un changement de paradigme

DeepSeek-R1 est un nouveau LLM dont les paramètres et poids sont ouverts ('Open Weight') . Il est basé sur le modèle DeepSeek-V3. DeepSeek-R1-Zero est un modèle provisoire entraîné uniquement par renforcement (RL ou Reinforcement Learning). Selon Gartner, il démontre que les fournisseurs de modèles peuvent utiliser la seule technique du RL pour augmenter les capacités d'une IA dans certains domaines, tels que les mathématiques et le codage, où les réponses sont difficiles à générer, mais faciles à vérifier.

Mais, pour les analystes du Gartner, le modèle de DeepSeek ne constitue pas un changement de paradigme. Il s'appuie plutôt sur l'architecture d'entraînement des LLM existante, en ajoutant des optimisations techniques et architecturales pour rendre cet entraînement et l'inférence plus efficaces. DeepSeek n'établit pas non plus un nouvel état de l'art en matière de performance des modèles. Les chercheurs de Gartner notent que ce dernier égale souvent les modèles de pointe existants, mais sans les dépasser. Et soulignent que DeepSeek ne constitue pas une preuve que la mise à l'échelle des modèles par le biais de puissance de calcul et de données supplémentaires n'a pas d'importance. Au contraire, il démontre qu'il est rentable de mettre à l'échelle un modèle plus efficace.

« Le lancement de la version R1 de DeepSeek et son prix d'inférence nettement inférieur à celui du modèle o1-preview d'OpenAI vont de pair avec la banalisation de la couche basée sur des modèles LLM, écrivent-ils. Cela signifie que l'efficacité n'est plus une question de coût par token. Il s'agit de déterminer quel modèle peut raisonner au meilleur coût, sans impact sur la précision et la latence. L'accent sera donc bientôt mis sur la mise à l'échelle efficace de l'IA par rapport à la quantité de calcul que vous pouvez assembler pour la construire. »

Vers une baisse des coûts des LLM

En accord avec leur collègue Chirag Dekate, les chercheurs de Gartner notent que dans le sillage de l'annonce de DeepSeek, d'autres éditeurs de modèles tels que Meta se sont remis à la table de travail et vont réagir. Les DSI doivent donc s'attendre à une réduction rapide, à court et à moyen terme, du coût des LLM, mais seulement dans une certaine mesure. « Ces innovations logicielles et algorithmiques permettent également aux vendeurs de modèles d'en faire davantage avec du matériel plus puissant, écrivent les analystes. Les nouveaux modèles les plus avancés auront toujours des coûts de R&D et de calcul élevés qui seront répercutés sur les premiers utilisateurs. »

Les analystes de Forrester Carlos Casanova, Michele Pelino et Michele Goetz notent en outre que les DSI doivent s'attendre à ce que DeepSeek ait un impact sur les technologies d'informatique Edge, les AIOps et les opérations IT. En particulier, DeepSeek a la capacité d'expliquer ses réponses par défaut, offrant une transparence cruciale pour établir la confiance et la compréhension des décisions prises par l'IA dans les solutions de type AIOps.

« Avec des LLM fonctionnant sur des appareils en Edge Computing, les AIOps et l'observabilité peuvent atteindre de nouveaux niveaux d'analyse et d'automatisation en temps réel, écrivent-ils. L'intégration de LLM plus petits capables de fonctionner à la périphérie - comme DeepSeek R1 - avec des fonctions AIOps peut également conduire à une maintenance plus proactive et prédictive des appareils et de l'infrastructure, ou à l'arrivée d'actions d'atténuation des risques sans intervention humaine. »

Partager cet article

Commentaire

Avatar
Envoyer
Ecrire un commentaire...

INFORMATION

Vous devez être connecté à votre compte CIO pour poster un commentaire.

Cliquez ici pour vous connecter
Pas encore inscrit ? s'inscrire

    Publicité

    Abonnez-vous à la newsletter CIO

    Recevez notre newsletter tous les lundis et jeudis

    La question du moment
    Les risques cyber sont-ils régulièrement mis à jour et partagés largement au sein de l’organisation ?