Torna alla wiki

Addestramento

Come un modello passa dal non sapere nulla al parlare di tutto.

L'analogia

Pensa alla formazione di un medico: prima anni a leggere l'intera biblioteca (pre-addestramento), poi tirocinio guidato con casi corretti dai tutor (messa a punto con esempi) e infine il feedback dei pazienti reali che ne affina i modi (raffinamento con preferenze umane).

Nel dettaglio

L'addestramento tipico ha più fasi: pre-addestramento auto-supervisionato su migliaia di miliardi di token (prevedere la parola successiva), messa a punto supervisionata con esempi di qualità (SFT) e apprendimento per rinforzo dal feedback umano (RLHF) per allineare il comportamento. Addestrare un grande modello costa milioni; usarlo (inferenza), centesimi.

Un esempio

Lo stesso modello base che completa «Parigi è la capitale della…» impara, dopo la messa a punto, a rispondere con gentilezza, rifiutare richieste dannose e rispettare il formato che chiedi.

Concetti collegati