Treino
Como um modelo passa de não saber nada a falar de tudo.
A analogia
Pensa na formação de um médico: primeiro anos a ler a biblioteca inteira (pré-treino), depois prática supervisionada com casos corrigidos por tutores (afinação com exemplos) e, por fim, o feedback de doentes reais que lhe pole o trato (refinamento com preferências humanas).
Em detalhe
O treino típico tem fases: pré-treino autossupervisionado com biliões de tokens (prever a palavra seguinte), afinação supervisionada com exemplos de qualidade (SFT) e aprendizagem por reforço com feedback humano (RLHF) para alinhar o comportamento. Treinar um modelo grande custa milhões; usá-lo (inferência), cêntimos.
Um exemplo
O mesmo modelo base que completa “Paris é a capital de…” aprende, depois da afinação, a responder com educação, recusar pedidos nocivos e manter o formato que pedes.