Training
Wie ein Modell vom Nichtswissen zum Über-alles-Reden kommt.
Der Vergleich
Denk an die Ausbildung einer Ärztin: erst Jahre, in denen sie die ganze Bibliothek liest (Pre-Training), dann begleitete Praxis mit von Tutoren korrigierten Fällen (Feinabstimmung mit Beispielen), zuletzt Feedback echter Patienten, das ihren Umgang schleift (Verfeinerung durch menschliche Präferenzen).
Im Detail
Typisches Training hat Phasen: selbstüberwachtes Pre-Training auf Billionen Tokens (das nächste Wort vorhersagen), überwachte Feinabstimmung mit hochwertigen Beispielen (SFT) und Verstärkungslernen mit menschlichem Feedback (RLHF) zur Ausrichtung des Verhaltens. Ein großes Modell zu trainieren kostet Millionen; es zu benutzen (Inferenz), Cents.
Ein Beispiel
Dasselbe Basismodell, das „Paris ist die Hauptstadt von …“ vervollständigt, lernt nach der Abstimmung, höflich zu antworten, schädliche Anfragen abzulehnen und dein gewünschtes Format einzuhalten.