Volver a la wiki

Transformer

La arquitectura que hizo posible todo lo demás.

La analogía

En una fiesta no escuchas a todos por igual: prestas atención a quien dice algo relevante para ti. El transformer dio esa habilidad a las máquinas: la “atención” permite que cada palabra mire a todas las demás y decida cuáles le importan para entender su significado.

En detalle

Arquitectura de red neuronal presentada en 2017 en el artículo “Attention Is All You Need”. Su mecanismo de auto-atención procesa todas las posiciones de la secuencia en paralelo y captura relaciones a larga distancia, lo que la hace mucho más entrenable a gran escala que las redes recurrentes anteriores. GPT, Claude, Gemini y Llama son transformers.

Un ejemplo

En “El gato que vimos ayer en el parque estaba dormido”, para entender “estaba dormido” el modelo necesita conectarlo con “el gato”, a ocho palabras de distancia. La atención hace exactamente eso.

Conceptos relacionados