Multimodale KI — Promptpedia

01

Der Vergleich

Ein Mensch versteht die Welt nicht nur durch Lesen: Er schaut Fotos an, hört Gesprächen zu, deutet Diagramme. Multimodale Modelle machen diesen Sprung: Statt nur Text zu verarbeiten, behandeln sie Bilder, Audio oder Video als Teil derselben Konversation.

02

Im Detail

Ein multimodales Modell wandelt verschiedene Eingaben (Bild, Audio, Text) in kompatible interne Repräsentationen um, meist projiziert in denselben Raum wie Text-Tokens. So kann es ein Foto beschreiben, eine gescannte Rechnung lesen oder Bilder erzeugen. Die Verschmelzung geschieht im Modell selbst, nicht in getrennten Programmen.

03

Ein Beispiel

Ein Beispiel Promptpedia

Du schickst ein Foto deines Sicherungskastens und fragst: „Welche Sicherung ist wohl rausgeflogen, wenn die Küche keinen Strom hat?“ Das Modell „betrachtet“ das Bild, liest die Beschriftungen und zieht Schlüsse daraus.

04

Embeddings LLM (großes Sprachmodell) KI-Agenten