Entrenamiento
Cómo un modelo pasa de no saber nada a hablar de todo.
La analogía
Piensa en formar a un médico: primero años leyendo toda la biblioteca (pre-entrenamiento), luego prácticas guiadas con casos corregidos por tutores (ajuste con ejemplos) y por último el feedback de pacientes reales que pule su trato (refinamiento con preferencias humanas).
En detalle
El entrenamiento típico tiene fases: pre-entrenamiento auto-supervisado con billones de tokens (predecir la siguiente palabra), ajuste supervisado con ejemplos de calidad (SFT) y aprendizaje por refuerzo con feedback humano (RLHF) para alinear el comportamiento. Entrenar un modelo grande cuesta millones; usarlo (inferencia), céntimos.
Un ejemplo
El mismo modelo base que completa “París es la capital de…” aprende, tras el ajuste, a responder con educación, negarse a peticiones dañinas y mantener el formato que le pides.