Voltar à wiki

Benchmarks

Os exames com que se comparam os modelos.

A analogia

Para comparar carros olhas para o consumo, a mala e a segurança em testes padronizados. Com os modelos é igual: baterias de exames — matemática, código, raciocínio — que todos fazem nas mesmas condições para poderem ser comparados.

Em detalhe

Um benchmark é um conjunto de tarefas com respostas conhecidas que mede capacidades concretas (MMLU para conhecimento, HumanEval para código…). Úteis mas imperfeitos: os modelos podem ter “visto” as perguntas no treino (contaminação) e uma boa nota não garante bom desempenho no teu caso real. O melhor benchmark é sempre o teu.

Um exemplo

Dois modelos têm notas parecidas nos exames públicos, mas ao testá-los com os teus documentos reais um entende muito melhor as tuas tabelas. Para ti, conta esse benchmark privado.

Conceitos relacionados