Volver a la wiki
Inferencia
El momento en que el modelo trabaja para ti.
La analogía
Entrenar es como los años de estudio de un chef; la inferencia es cocinar tu plato cuando lo pides. El estudio pasó una vez y costó muchísimo; cocinar pasa con cada comanda y tiene que ser rápido.
En detalle
La inferencia es la ejecución del modelo ya entrenado para generar respuestas: los pesos no cambian, solo se calculan. Cada token generado requiere pasar por toda la red, y por eso las respuestas “se escriben” progresivamente (streaming). Optimizaciones como la cuantización, la caché de contexto y el batching reducen coste y latencia.
Un ejemplo
Cuando ves la respuesta aparecer palabra a palabra, no es un efecto estético: el modelo está calculando cada token en ese mismo instante, uno tras otro.