Retour au wiki

Benchmarks

Les examens qui servent à comparer les modèles.

L'analogie

Pour comparer des voitures, on regarde consommation, coffre et sécurité dans des tests standardisés. Pour les modèles, c'est pareil : des batteries d'examens — maths, code, raisonnement — que tous passent dans les mêmes conditions pour pouvoir être comparés.

En détail

Un benchmark est un ensemble de tâches aux réponses connues qui mesure des capacités précises (MMLU pour les connaissances, HumanEval pour le code…). Utiles mais imparfaits : les modèles ont pu « voir » les questions pendant l'entraînement (contamination), et une bonne note ne garantit pas de bons résultats dans votre cas réel. Le meilleur benchmark reste le vôtre.

Un exemple

Deux modèles obtiennent des notes proches aux examens publics, mais testés sur vos documents réels, l'un comprend bien mieux vos tableaux. Pour vous, c'est ce benchmark privé qui compte.

Concepts liés