Voltar à wiki

Transformer

A arquitetura que tornou tudo o resto possível.

A analogia

Numa festa, não ouves toda a gente da mesma forma: prestas atenção a quem diz algo relevante para ti. O transformer deu essa capacidade às máquinas: a “atenção” permite que cada palavra olhe para todas as outras e decida quais importam para o seu significado.

Em detalhe

Arquitetura de rede neuronal apresentada em 2017 no artigo “Attention Is All You Need”. O seu mecanismo de autoatenção processa todas as posições da sequência em paralelo e capta relações a longa distância, tornando-a muito mais treinável em grande escala do que as redes recorrentes anteriores. GPT, Claude, Gemini e Llama são transformers.

Um exemplo

Em “O gato que vimos ontem no parque estava a dormir”, para entender “estava a dormir” o modelo precisa de o ligar a “o gato”, oito palavras atrás. A atenção faz exatamente isso.

Conceitos relacionados