Transformer
La arquitectura que hizo posible todo lo demás.
La analogía
En una fiesta no escuchas a todos por igual: prestas atención a quien dice algo relevante para ti. El transformer dio esa habilidad a las máquinas: la “atención” permite que cada palabra mire a todas las demás y decida cuáles le importan para entender su significado.
En detalle
Arquitectura de red neuronal presentada en 2017 en el artículo “Attention Is All You Need”. Su mecanismo de auto-atención procesa todas las posiciones de la secuencia en paralelo y captura relaciones a larga distancia, lo que la hace mucho más entrenable a gran escala que las redes recurrentes anteriores. GPT, Claude, Gemini y Llama son transformers.
Un ejemplo
En “El gato que vimos ayer en el parque estaba dormido”, para entender “estaba dormido” el modelo necesita conectarlo con “el gato”, a ocho palabras de distancia. La atención hace exactamente eso.