MAGUS: Multi-Agenten-Framework für multimodale Verständnis- und Generierung

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

In der Praxis verlangen multimodale Anwendungen von einer echten Any-to-Any‑Fähigkeit, die sowohl das Verständnis als auch die Erzeugung über Text, Bild, Audio und Video hinweg ermöglicht. Traditionelle Ansätze setzen dabei auf starre Pipelines oder stark gekoppelte Architekturen, was Flexibilität und Skalierbarkeit einschränkt.

Das neue Framework MAGUS (Multi‑Agent Guided Unified Multimodal System) löst dieses Problem, indem es multimodales Verständnis und Generierung in zwei klar getrennte Phasen aufteilt: Cognition und Deliberation. In der Cognition‑Phase arbeiten drei rollenbasierte multimodale LLM‑Agenten – Perceiver, Planner und Reflector – in einem gemeinsamen textuellen Arbeitsbereich zusammen. Sie führen ein strukturiertes Dialog‑Verständnis durch und planen anschließend die nächsten Schritte.

Die Deliberation‑Phase nutzt einen Growth‑Aware‑Search‑Mechanismus, der LLM‑basierte Logik und Diffusions‑basierte Bild‑ bzw. Audiosynthese in einem sich gegenseitig verstärkenden Zyklus kombiniert. Dadurch entsteht ein dynamisches Zusammenspiel von Analyse und Erzeugung, das ohne ein gemeinsames Training auskommt.

MAGUS ist plug‑and‑play, unterstützt skalierbare Any-to-Any‑Konvertierungen und sorgt für semantische Ausrichtung zwischen den Modalitäten. In umfangreichen Benchmarks – darunter Bild-, Video‑ und Audio‑Generierung sowie Cross‑Modal‑Instruction‑Following – übertrifft das System starke Baselines und sogar das proprietäre GPT‑4o auf dem MME‑Benchmark.

Ähnliche Artikel