IA multimodal
Modelos que não se limitam a ler: também veem, ouvem e desenham.
A analogia
Uma pessoa não entende o mundo só a ler: olha para fotografias, ouve conversas, interpreta gráficos. Os modelos multimodais dão esse salto: em vez de lidarem apenas com texto, processam imagens, áudio ou vídeo como parte da mesma conversa.
Em detalhe
Um modelo multimodal converte diferentes tipos de entrada (imagem, áudio, texto) em representações internas compatíveis, normalmente projetando-as no mesmo espaço dos tokens de texto. Assim consegue descrever uma fotografia, ler uma fatura digitalizada ou gerar imagens. A fusão acontece dentro do próprio modelo, não em programas separados.
Um exemplo
Envias a fotografia do quadro elétrico de casa e perguntas: “que disjuntor terá disparado se não há luz na cozinha?”. O modelo “olha” para a imagem, lê as etiquetas e raciocina sobre elas.