Entrenamiento — Promptpedia

01

La analogía

Piensa en formar a un médico: primero años leyendo toda la biblioteca (pre-entrenamiento), luego prácticas guiadas con casos corregidos por tutores (ajuste con ejemplos) y por último el feedback de pacientes reales que pule su trato (refinamiento con preferencias humanas).

02

En detalle

El entrenamiento típico tiene fases: pre-entrenamiento auto-supervisado con billones de tokens (predecir la siguiente palabra), ajuste supervisado con ejemplos de calidad (SFT) y aprendizaje por refuerzo con feedback humano (RLHF) para alinear el comportamiento. Entrenar un modelo grande cuesta millones; usarlo (inferencia), céntimos.

03

Un ejemplo

Un ejemplo Promptpedia

El mismo modelo base que completa “París es la capital de…” aprende, tras el ajuste, a responder con educación, negarse a peticiones dañinas y mantener el formato que le pides.

04

Parámetros Fine-tuning (ajuste fino) Inferencia