Benchmarks
Die Prüfungen, mit denen man Modelle vergleicht.
Der Vergleich
Um Autos zu vergleichen, schaust du in standardisierten Tests auf Verbrauch, Kofferraum und Sicherheit. Bei Modellen ist es genauso: Prüfungsbatterien – Mathematik, Code, Logik –, die alle unter gleichen Bedingungen ablegen, damit man sie vergleichen kann.
Im Detail
Ein Benchmark ist ein Aufgabensatz mit bekannten Antworten, der bestimmte Fähigkeiten misst (MMLU für Wissen, HumanEval für Code …). Nützlich, aber unvollkommen: Modelle können die Fragen im Training „gesehen“ haben (Kontamination), und eine gute Note garantiert keine gute Leistung in deinem echten Anwendungsfall. Der beste Benchmark ist immer dein eigener.
Ein Beispiel
Zwei Modelle schneiden in öffentlichen Prüfungen ähnlich ab, aber im Test mit deinen echten Dokumenten versteht eines deine Tabellen deutlich besser. Für dich zählt dieser private Benchmark.