Benchmarks — Promptpedia

01

La analogía

Para comparar coches miras consumo, maletero y seguridad en pruebas estandarizadas. Con los modelos pasa igual: baterías de exámenes —matemáticas, código, razonamiento— que todos hacen en igualdad de condiciones para poder compararlos.

02

En detalle

Un benchmark es un conjunto de tareas con respuestas conocidas que mide capacidades concretas (MMLU para conocimiento, HumanEval para código…). Útiles pero imperfectos: los modelos pueden haber “visto” las preguntas en su entrenamiento (contaminación) y una buena nota no garantiza buen rendimiento en tu caso real. El mejor benchmark siempre es el tuyo.

03

Un ejemplo

Un ejemplo Promptpedia

Dos modelos sacan notas parecidas en los exámenes públicos, pero al probarlos con tus documentos reales uno entiende mucho mejor tus tablas. Para ti, ese benchmark privado es el que cuenta.

04

LLM (gran modelo de lenguaje) Modelos abiertos y cerrados Alucinaciones