Benchmarks
Los exámenes con los que se comparan los modelos.
La analogía
Para comparar coches miras consumo, maletero y seguridad en pruebas estandarizadas. Con los modelos pasa igual: baterías de exámenes —matemáticas, código, razonamiento— que todos hacen en igualdad de condiciones para poder compararlos.
En detalle
Un benchmark es un conjunto de tareas con respuestas conocidas que mide capacidades concretas (MMLU para conocimiento, HumanEval para código…). Útiles pero imperfectos: los modelos pueden haber “visto” las preguntas en su entrenamiento (contaminación) y una buena nota no garantiza buen rendimiento en tu caso real. El mejor benchmark siempre es el tuyo.
Un ejemplo
Dos modelos sacan notas parecidas en los exámenes públicos, pero al probarlos con tus documentos reales uno entiende mucho mejor tus tablas. Para ti, ese benchmark privado es el que cuenta.