Sprach-, Sicht- und Handlungsmodelle zeigen überraschende Übereinstimmung

arXiv – cs.AI Original ≈2 Min. Lesezeit
Anzeige

Eine neue Studie aus dem Bereich der Kognitionswissenschaft und künstlichen Intelligenz hat gezeigt, dass Modelle, die auf unterschiedlichen Lernmodalitäten – Sprache, Vision und Handeln – trainiert werden, überraschend ähnliche interne Repräsentationen entwickeln. Traditionell wurde angenommen, dass sich Modelle, die auf verschiedene Datentypen spezialisiert haben, in ihrer Darstellung stark unterscheiden. Die vorliegende Arbeit widerspricht dieser Annahme und liefert Belege für eine bemerkenswerte Konvergenz.

Um die Frage zu untersuchen, ob diese Übereinstimmung auch bei eingebetteten Handlungslernmodellen besteht, wurde ein transformerbasierter Agent auf der BabyAI-Plattform trainiert. Durch Verhaltensklonierung erhielt der Agent natürliche Sprachbefehle, die er in zielgerichtete Aktionen umsetzte. Die daraus resultierenden action‑grounded Language Embeddings wurden ausschließlich durch sensorimotorische Kontrollanforderungen geformt.

Die gewonnenen Repräsentationen wurden anschließend mit denen von führenden Sprachmodellen (LLaMA, Qwen, DeepSeek, BERT) sowie Vision‑Language‑Modellen (CLIP, BLIP) verglichen. Trotz erheblicher Unterschiede in Trainingsdaten, Modalität und Zielsetzungen zeigte sich eine robuste Cross‑Modal‑Alignment. Besonders stark korrelierten die Action‑Repräsentationen mit decoder‑only Sprachmodellen und BLIP, wobei die Präzision bei 15 (precision@15) zwischen 0,70 und 0,73 lag – ein Wert, der nahe an der Alignment‑Stärke unter Sprachmodellen selbst liegt. Die Übereinstimmung mit CLIP und BERT war hingegen deutlich schwächer.

Diese Ergebnisse deuten darauf hin, dass sprachliche, visuelle und handlungsbezogene Repräsentationen in Richtung gemeinsamer semantischer Strukturen konvergieren. Die Studie unterstützt die Idee einer modalitätsunabhängigen semantischen Organisation und eröffnet neue Perspektiven für die Entwicklung von Modellen, die über mehrere Modalitäten hinweg nahtlos kommunizieren und handeln können.

Ähnliche Artikel