Multimodale KI
Modelle, die nicht nur lesen: Sie sehen, hören und zeichnen.
Der Vergleich
Ein Mensch versteht die Welt nicht nur durch Lesen: Er schaut Fotos an, hört Gesprächen zu, deutet Diagramme. Multimodale Modelle machen diesen Sprung: Statt nur Text zu verarbeiten, behandeln sie Bilder, Audio oder Video als Teil derselben Konversation.
Im Detail
Ein multimodales Modell wandelt verschiedene Eingaben (Bild, Audio, Text) in kompatible interne Repräsentationen um, meist projiziert in denselben Raum wie Text-Tokens. So kann es ein Foto beschreiben, eine gescannte Rechnung lesen oder Bilder erzeugen. Die Verschmelzung geschieht im Modell selbst, nicht in getrennten Programmen.
Ein Beispiel
Du schickst ein Foto deines Sicherungskastens und fragst: „Welche Sicherung ist wohl rausgeflogen, wenn die Küche keinen Strom hat?“ Das Modell „betrachtet“ das Bild, liest die Beschriftungen und zieht Schlüsse daraus.