Inferenz
Der Moment, in dem das Modell für dich arbeitet.
Der Vergleich
Das Training sind die Lehrjahre eines Kochs; die Inferenz ist das Kochen deines Gerichts, wenn du bestellst. Die Ausbildung geschah einmal und war teuer; gekocht wird bei jeder Bestellung – und zwar schnell.
Im Detail
Inferenz ist das Ausführen des fertig trainierten Modells zum Generieren von Antworten: Die Gewichte ändern sich nicht, sie werden nur durchgerechnet. Jedes erzeugte Token erfordert einen Durchlauf durchs ganze Netz – deshalb „tippen“ sich Antworten progressiv (Streaming). Optimierungen wie Quantisierung, Kontext-Caching und Batching senken Kosten und Latenz.
Ein Beispiel
Wenn du die Antwort Wort für Wort erscheinen siehst, ist das kein Stilmittel: Das Modell berechnet jedes Token genau in diesem Augenblick, eines nach dem anderen.