Inferenz — Promptpedia

01

Der Vergleich

Das Training sind die Lehrjahre eines Kochs; die Inferenz ist das Kochen deines Gerichts, wenn du bestellst. Die Ausbildung geschah einmal und war teuer; gekocht wird bei jeder Bestellung – und zwar schnell.

02

Im Detail

Inferenz ist das Ausführen des fertig trainierten Modells zum Generieren von Antworten: Die Gewichte ändern sich nicht, sie werden nur durchgerechnet. Jedes erzeugte Token erfordert einen Durchlauf durchs ganze Netz – deshalb „tippen“ sich Antworten progressiv (Streaming). Optimierungen wie Quantisierung, Kontext-Caching und Batching senken Kosten und Latenz.

03

Ein Beispiel

Ein Beispiel Promptpedia

Wenn du die Antwort Wort für Wort erscheinen siehst, ist das kein Stilmittel: Das Modell berechnet jedes Token genau in diesem Augenblick, eines nach dem anderen.

04

Training Tokens Temperatur