Benchmarks
Les examens qui servent à comparer les modèles.
L'analogie
Pour comparer des voitures, on regarde consommation, coffre et sécurité dans des tests standardisés. Pour les modèles, c'est pareil : des batteries d'examens — maths, code, raisonnement — que tous passent dans les mêmes conditions pour pouvoir être comparés.
En détail
Un benchmark est un ensemble de tâches aux réponses connues qui mesure des capacités précises (MMLU pour les connaissances, HumanEval pour le code…). Utiles mais imparfaits : les modèles ont pu « voir » les questions pendant l'entraînement (contamination), et une bonne note ne garantit pas de bons résultats dans votre cas réel. Le meilleur benchmark reste le vôtre.
Un exemple
Deux modèles obtiennent des notes proches aux examens publics, mais testés sur vos documents réels, l'un comprend bien mieux vos tableaux. Pour vous, c'est ce benchmark privé qui compte.