Voltar à wiki

Inferência

O momento em que o modelo trabalha para ti.

A analogia

O treino são os anos de escola de um chef; a inferência é cozinhar o teu prato quando o pedes. O estudo aconteceu uma vez e custou uma fortuna; a cozinha acontece a cada pedido e tem de ser rápida.

Em detalhe

A inferência é a execução do modelo já treinado para gerar respostas: os pesos não mudam, apenas se calculam. Cada token gerado exige uma passagem por toda a rede — por isso as respostas “escrevem-se” progressivamente (streaming). Otimizações como quantização, cache de contexto e batching reduzem custo e latência.

Um exemplo

Quando vês a resposta a aparecer palavra a palavra, não é um efeito estético: o modelo está a calcular cada token naquele preciso instante, um após o outro.

Conceitos relacionados