Voltar à wiki

Treino

Como um modelo passa de não saber nada a falar de tudo.

A analogia

Pensa na formação de um médico: primeiro anos a ler a biblioteca inteira (pré-treino), depois prática supervisionada com casos corrigidos por tutores (afinação com exemplos) e, por fim, o feedback de doentes reais que lhe pole o trato (refinamento com preferências humanas).

Em detalhe

O treino típico tem fases: pré-treino autossupervisionado com biliões de tokens (prever a palavra seguinte), afinação supervisionada com exemplos de qualidade (SFT) e aprendizagem por reforço com feedback humano (RLHF) para alinhar o comportamento. Treinar um modelo grande custa milhões; usá-lo (inferência), cêntimos.

Um exemplo

O mesmo modelo base que completa “Paris é a capital de…” aprende, depois da afinação, a responder com educação, recusar pedidos nocivos e manter o formato que pedes.

Conceitos relacionados