Volver a la wiki

Inferencia

El momento en que el modelo trabaja para ti.

La analogía

Entrenar es como los años de estudio de un chef; la inferencia es cocinar tu plato cuando lo pides. El estudio pasó una vez y costó muchísimo; cocinar pasa con cada comanda y tiene que ser rápido.

En detalle

La inferencia es la ejecución del modelo ya entrenado para generar respuestas: los pesos no cambian, solo se calculan. Cada token generado requiere pasar por toda la red, y por eso las respuestas “se escriben” progresivamente (streaming). Optimizaciones como la cuantización, la caché de contexto y el batching reducen coste y latencia.

Un ejemplo

Cuando ves la respuesta aparecer palabra a palabra, no es un efecto estético: el modelo está calculando cada token en ese mismo instante, uno tras otro.

Conceptos relacionados