IA multimodal
Modelos que no solo leen: también ven, escuchan y dibujan.
La analogía
Una persona no entiende el mundo solo leyendo: mira fotos, escucha conversaciones, interpreta gráficos. Los modelos multimodales dan ese salto: en lugar de manejar solo texto, procesan imágenes, audio o vídeo como parte de la misma conversación.
En detalle
Un modelo multimodal convierte distintos tipos de entrada (imagen, audio, texto) en representaciones internas compatibles, normalmente proyectándolas al mismo espacio que los tokens de texto. Así puede describir una foto, leer una factura escaneada o generar imágenes. La fusión ocurre dentro del propio modelo, no en programas separados.
Un ejemplo
Le mandas la foto del cuadro eléctrico de casa y preguntas: “¿qué interruptor habrá saltado si no hay luz en la cocina?”. El modelo “mira” la imagen, lee las etiquetas y razona sobre ellas.