IA multimodal — Promptpedia

01

A analogia

Uma pessoa não entende o mundo só a ler: olha para fotografias, ouve conversas, interpreta gráficos. Os modelos multimodais dão esse salto: em vez de lidarem apenas com texto, processam imagens, áudio ou vídeo como parte da mesma conversa.

02

Em detalhe

Um modelo multimodal converte diferentes tipos de entrada (imagem, áudio, texto) em representações internas compatíveis, normalmente projetando-as no mesmo espaço dos tokens de texto. Assim consegue descrever uma fotografia, ler uma fatura digitalizada ou gerar imagens. A fusão acontece dentro do próprio modelo, não em programas separados.

03

Um exemplo

Um exemplo Promptpedia

Envias a fotografia do quadro elétrico de casa e perguntas: “que disjuntor terá disparado se não há luz na cozinha?”. O modelo “olha” para a imagem, lê as etiquetas e raciocina sobre elas.

04

Embeddings LLM (grande modelo de linguagem) Agentes de IA