Technologies

Benchmarks de LLM, mode d'emploi

Tirer tout le bénéfice des benchmarks de LLM dans un projet de GenAI nécessite un bon niveau de connaissance et le suivi de quelques règles de base. (Photo : Pixabay/TyliJura)

Avec le développement de LLM de plus en plus nombreux, variés et spécifiques, il devient difficile pour les organisations de se repérer. Elles peuvent cependant exploiter les benchmarks de LLM qui se développent eux-aussi en nombre, à condition de suivre certaines règles.

PublicitéLes déploiements de l'IA générative en entreprise sont désormais pléthore. Et le marché propose un éventail de plus en plus large de LLM parmi lesquels il n'est pas simple de choisir en fonction de ses besoins. Une des réponses se trouve dans les benchmarks qui évaluent et classent les principaux modèles.

Ces tests standardisés spécifiquement développés pour mesurer les performances des modèles de langage, évaluent non seulement le fonctionnement d'un modèle, mais aussi la qualité des tâches qu'il réalise. Ils mesurent et comparent des paramètres tels que la précision, la fiabilité et la capacité à s'exécuter efficacement dans la pratique. Qu'il s'agisse de sélectionner un chatbot pour le service client, de traduire des textes scientifiques ou de programmer un logiciel, les benchmarks apportent une première réponse à la question : ce modèle est-il adapté à mon cas d'usage ?

Conserver un regard critique

Les principales caractéristiques de ces benchmarks sont au nombre de trois. La polyvalence pour commencer. Les benchmarks mesurent en effet un large éventail de capacités des LLM, depuis la compréhension du langage jusqu'à la résolution de problèmes mathématiques ou au développement logiciel. La spécialisation ensuite, puisque certains benchmarks sont conçus pour se concentrer sur des domaines d'application précis, comme MultiMedQA dans le domaine médical, et pour évaluer l'adéquation d'un modèle dans des contextes sensibles ou très complexes. Enfin, ces benchmarks présentent quelques défis. Ils ont des limites telles que la potentielle data contamination (exploitation de données incorrectes), un degré d'obsolescence rapide et une capacité limitée à être étendus au-delà de leur cible initiale. Ce qui impose de conserver un regard critique lors de l'interprétation des résultats du comparatif.

3 piliers : les datasets, l'évaluation et les classements

Le benchmarking de LLM repose sur trois piliers : les data sets, les méthodes d'évaluation et les classements. Les data sets, collections de tâches et de scénarios spécifiquement développés pour tester les capacités des modèles de langage, constituent la base des tests. Ils définissent les défis qu'un modèle doit surmonter. Leur qualité et leur variété sont essentielles pour garantir la valeur d'un benchmark. Mieux, ils simulent des applications du monde réel, plus les résultats sont utiles et significatifs. Squad (Stanford question responding dataset), par exemple, fournit des passages de texte et des questions associées pour tester la capacité d'un modèle à extraire des informations pertinentes de certains passages.

Deuxième pilier d'un benchmark, les méthodes d'évaluation. Il existe trois approches principales. Avec la première, le benchmark compare la réponse générée par un modèle avec un texte de référence idéal. Un exemple classique est Bleu, qui évalue dans quelle mesure les séquences de mots de la réponse générée correspondent à celles du texte de référence. Bertscore va encore plus loin, en évaluant non seulement les correspondances de mots, mais en analysant aussi la similarité sémantique. Ceci est particulièrement utile lorsque le sens est plus important que l'exactitude littérale.

PublicitéLes LLM, juges de LLM

La deuxième méthode d'évaluation évalue la qualité d'un texte généré indépendamment de toute référence. Le test analyse la cohérence, la logique et l'exhaustivité de la réponse par elle-même. Un modèle pourrait, par exemple, résumer le texte source : « Le changement climatique est l'un des problèmes les plus urgents de notre époque. Il est causé par l'augmentation des gaz à effet de serre tels que le CO₂, qui proviennent principalement de la combustion de combustibles fossiles » par « Le changement climatique est causé par les émissions de CO₂ ». Dans ce cas, une évaluation sans référence vérifiera si ce résumé reflète correctement le contenu essentiel et reste logique en soi.

Enfin, le LLM-as-a-Judge - AI as an educator est une approche innovante qui consiste à utiliser les modèles eux-mêmes comme leurs propres juges. Ces modèles analysent à la fois leurs propres réponses et celles des autres et les évaluent sur la base de critères prédéfinis. Cette approche ouvre de nouvelles possibilités qui vont au-delà des mesures classiques. Mais la méthode n'est pas sans défauts. Une étude a, par exemple, montré que les modèles ont tendance à reconnaître leurs propres réponses et à les évaluer plus favorablement que les autres. De tels biais nécessitent des mécanismes de contrôle supplémentaires pour garantir l'objectivité. La recherche dans ce domaine n'en est qu'à ses balbutiements, mais le potentiel d'obtention d'évaluations plus précises et nuancées reste important.

Enfin, 3e et dernier pilier d'un benchmark de LLM, les classements. Ce sont eux qui rendent les résultats transparents et comparables. Ils fournissent un aperçu précieux des résultats de référence. Ils rendent les performances des différents modèles comparables en un coup d'oeil et favorisent ainsi la transparence. Des plateformes comme Hugging Face ou Papers with Code sont de bons points de départ. Mais attention : une position en tête d'un classement ne doit pas être confondue avec une supériorité universelle. Le choix du bon modèle doit toujours se faire en fonction des besoins individuels d'un projet.

Les benchmarks LLM les plus courants

Avec chaque avancée sur le marché des LLM, de nouveaux tests sont créés pour répondre aux demandes croissantes. En règle générale, les benchmarks sont conçus pour des tâches spécifiques telles que la pensée logique, la résolution de problèmes mathématiques ou la programmation. Quelques benchmarks bien connus sont présentés ci-dessous, en fonction des thématiques suivantes :

1) Raisonnement et compréhension du langage

- MMLU (Massive multitask language understanding) teste l'étendue des connaissances d'un modèle dans 57 disciplines académiques et professionnelles. Avec près de 16 000 questions à choix multiples basées sur les programmes et les examens, des sujets tels que les mathématiques, la médecine et la philosophie sont couverts. Un accent particulier est mis sur le contenu complexe et spécifique à un sujet qui nécessite des connaissances avancées et un raisonnement logique.
Article de recherche associé - Mesurer la compréhension d'un langage massivement multitâche.

- Hellaswag évalue le « bon sens » d'un modèle en sélectionnant la phrase la plus plausible qui va suivre une autre phrase, parmi quatre options. Les tâches ont été conçues pour être faciles pour les humains, mais difficiles pour les modèles, ce qui rend ce benchmark particulièrement difficile.
Article de recherche - Hellaswag : une machine peut-elle vraiment finir votre phrase ?

- TruthfulQA évalue la capacité d'un modèle à fournir des réponses véridiques sans reproduire de malentendus ou de fausses hypothèses. Avec 817 questions dans 38 catégories, dont le droit et la santé, TruthfulQA est spécialement conçu pour identifier de la désinformation généralisée.
Article de recherche - TruthfulQA : Mesurer la façon dont les modèles imitent les mensonges humains.

2) Résolution de problèmes mathématiques

- MATH comprend 12 500 problèmes mathématiques dans des domaines tels que l'algèbre, la géométrie et la théorie des nombres. Chacun est annoté avec une solution étape par étape qui permet une évaluation précise des capacités de résolution du modèle. Le benchmark teste ainsi la capacité de ce dernier à reconnaître les relations logiques et à fournir une précision mathématique.
Article de recherche - Mesurer la résolution de problèmes mathématiques à l'aide de l'ensemble de données Math.

3) Compétences en programmation

- HumanEval propose 164 tâches de programmation Python avec des tests unitaires complets pour valider les solutions. Le benchmark teste la capacité d'un modèle à générer du code fonctionnel et logique à partir de descriptions en langage naturel.
Article de recherche - Évaluation de LLM entraînés sur du code.

4) Benchmarks spécifiques à un domaine

- MultiMedQA combine six ensembles de données médicales, dont PubMedQA et MedQA, pour tester l'applicabilité des modèles dans des contextes médicaux. La variété des questions - des questions ouvertes aux QCM - fournit une analyse détaillée des capacités spécifiques au domaine.
Article de recherche - Les grands modèles de langage encodent les connaissances cliniques.

5) Benchmarks spécialisés

- MT-Bench se concentre sur la capacité des LLM à fournir des réponses cohérentes dans des dialogues en plusieurs étapes. Avec près de 1400 dialogues couvrant des sujets tels que les mathématiques, l'écriture, les jeux de rôle et le raisonnement logique, le benchmark fournit une analyse complète des capacités de dialogue du modèle.
Article de recherche - MT-Bench-101 : A Fine-Grained Benchmark for Evaluating Large Language Models in Multi-Turn Dialogues.

- Chatbot Arena est une plateforme de comparaison directe entre modèles. Les utilisateurs peuvent tester des chatbots anonymes en évaluant leurs réponses en temps réel. Le système de classement Elo est ensuite utilisé pour créer un classement dynamique qui reflète les performances des modèles. L'indice de référence se distingue par son approche de crowdsourcing. Tout le monde peut contribuer à l'évaluation de la Chatbot Arena.
Article de recherche - Chatbot Arena : une plateforme ouverte pour évaluer les LLM en fonction des préférence d'un humain.

- SafetyBench est le premier benchmark complet à examiner les aspects de sécurité des LLM. Avec plus de 11 000 questions réparties en sept catégories, dont les préjugés, l'éthique, les risques potentiels et la robustesse, il fournit une analyse détaillée de la sécurité et de la sûreté des modèles.
Article de recherche - SafetyBench : Évaluation de la sécurité des LLM.

Les inévitables limites des benchmarks

Reste que les benchmarks ne sont pas des outils parfaits. Bien qu'ils fournissent des informations précieuses sur les capacités des LLM, leurs résultats doivent toujours être analysés avec un oeil critique. L'un des plus grands défis est ce que l'on appelle la contamination des données. Les benchmarks tirent leur validité de l'hypothèse que les modèles résolvent des tâches sans exposition préalable. Pourtant, les données d'entraînement d'un modèle contiennent souvent déjà des tâches ou des questions qui correspondent aux data sets. Ce qui peut, artificiellement, faire apparaître certains résultats comme meilleurs qu'ils ne le seraient dans la réalité et déformer les performances réelles d'un modèle.

Qui plus est, le développement rapide des technologies d'IA rend de nombreux benchmarks rapidement obsolètes. Cela nécessite le développement continu de nouveaux tests plus exigeants pour évaluer de manière significative les capacités actuelles des modèles modernes.

Un autre défaut des benchmarks réside dans la difficulté à les généraliser. Ils évaluent en général des fonctions spécifiques telles que la traduction ou la résolution de problèmes mathématiques. Mais un modèle qui fonctionne bien pour un benchmark donné n'est pas automatiquement adapté pour des scénarios réels et complexes dans lesquels plusieurs fonctions sont impliquées. Autrement dit, ces benchmarks sont très utiles, mais ne reflètent pas toute la réalité.

Conseils pratiques pour votre prochain projet

Les benchmarks sont plus que de simples tests, ils constituent la base de décisions éclairées lorsqu'il s'agit de choisir des LLM. Ils permettent d'analyser de façon exhaustive les forces et faiblesses d'un modèle, d'identifier les meilleures options pour des cas d'utilisation spécifiques et de minimiser les risques du projet. Il est intéressant de veiller aux éléments suivants pour une mise en pratique :

- Définir des exigences claires : tout d'abord, il faut déterminer les compétences essentielles au projet spécifique choisi. En conséquence, des critères de référence sont sélectionnés pour répondre à ces exigences spécifiques.

- Combiner plusieurs benchmarks : aucun benchmark ne peut évaluer toutes les fonctionnalités pertinentes d'un modèle. Une combinaison de différents tests permet d'obtenir une image différenciée des performances.

- Sélectionner en fonction des priorités : la définition des priorités du projet permet de sélectionner les benchmarks qui auront le plus de poids dans la réussite du projet.

- Compléter les benchmarks avec des tests pratiques : l'utilisation de tests avec des données réelles permet de s'assurer qu'un modèle répond aux exigences de l'application concernée.

- Rester flexible : de nouveaux benchmarks sont développés en permanence pour mieux refléter les avancées récentes dans la recherche en IA. Mieux vaut se tenir à jour pour s'adapter si besoin.

L'utilisation stratégique des benchmarks permet non seulement de choisir un meilleur modèle, mais aussi d'exploiter pleinement son potentiel d'innovation. Cependant, les benchmarks ne constituent bien entendu qu'une première étape avant l'intégration et l'adaptation des LLM dans des applications concrètes pour l'entreprise.