Benchmarks — Promptpedia

01

A analogia

Para comparar carros olhas para o consumo, a mala e a segurança em testes padronizados. Com os modelos é igual: baterias de exames — matemática, código, raciocínio — que todos fazem nas mesmas condições para poderem ser comparados.

02

Em detalhe

Um benchmark é um conjunto de tarefas com respostas conhecidas que mede capacidades concretas (MMLU para conhecimento, HumanEval para código…). Úteis mas imperfeitos: os modelos podem ter “visto” as perguntas no treino (contaminação) e uma boa nota não garante bom desempenho no teu caso real. O melhor benchmark é sempre o teu.

03

Um exemplo

Um exemplo Promptpedia

Dois modelos têm notas parecidas nos exames públicos, mas ao testá-los com os teus documentos reais um entende muito melhor as tuas tabelas. Para ti, conta esse benchmark privado.

04

LLM (grande modelo de linguagem) Modelos abertos e fechados Alucinações