Benchmark
Gli esami con cui si confrontano i modelli.
L'analogia
Per confrontare le auto guardi consumi, bagagliaio e sicurezza in test standardizzati. Con i modelli è lo stesso: batterie di esami — matematica, codice, ragionamento — che tutti affrontano alle stesse condizioni per poterli confrontare.
Nel dettaglio
Un benchmark è un insieme di compiti con risposte note che misura capacità specifiche (MMLU per le conoscenze, HumanEval per il codice…). Utili ma imperfetti: i modelli possono aver «visto» le domande durante l'addestramento (contaminazione) e un buon punteggio non garantisce buoni risultati nel tuo caso reale. Il benchmark migliore è sempre il tuo.
Un esempio
Due modelli ottengono punteggi simili negli esami pubblici, ma alla prova con i tuoi documenti reali uno capisce molto meglio le tue tabelle. Per te conta quel benchmark privato.