Torna alla wiki

Benchmark

Gli esami con cui si confrontano i modelli.

L'analogia

Per confrontare le auto guardi consumi, bagagliaio e sicurezza in test standardizzati. Con i modelli è lo stesso: batterie di esami — matematica, codice, ragionamento — che tutti affrontano alle stesse condizioni per poterli confrontare.

Nel dettaglio

Un benchmark è un insieme di compiti con risposte note che misura capacità specifiche (MMLU per le conoscenze, HumanEval per il codice…). Utili ma imperfetti: i modelli possono aver «visto» le domande durante l'addestramento (contaminazione) e un buon punteggio non garantisce buoni risultati nel tuo caso reale. Il benchmark migliore è sempre il tuo.

Un esempio

Due modelli ottengono punteggi simili negli esami pubblici, ma alla prova con i tuoi documenti reali uno capisce molto meglio le tue tabelle. Per te conta quel benchmark privato.

Concetti collegati