MATA: Hierarchisches Automaton-System für Multi-Agent Visual Reasoning
In einer neuen Veröffentlichung auf arXiv präsentiert das Forschungsteam das Modell MATA – ein Multi-Agent System, das als hierarchischer endlicher Automat für visuelles Reasoning fungiert. Der Ansatz kombiniert die starke Wahrnehmungsfähigkeit moderner Vision‑Language‑Modelle mit einer transparenten, regelbasierten Mikro‑Kontrolle.
Jeder Agent in MATA entspricht einem Zustand des übergeordneten Hyper‑Automatons und arbeitet mit einem kleinen, regelbasierten Sub‑Automaton. Alle Agenten greifen auf ein gemeinsames Gedächtnis zu, wodurch die gesamte Ausführung nachvollziehbar bleibt. Der Hyper‑Agent, der die Übergänge zwischen den Zuständen steuert, wird mithilfe eines neuen Datensatzes namens MATA‑SFT‑90K trainiert, der Übergangspfade in Speicher‑zu‑Nächster‑Zustand‑Paare umwandelt.
Durch die Kombination von LLM‑gestützter Übergangspolitik und der Fähigkeit, die Kapazität der einzelnen Agenten zu berücksichtigen, kann MATA effizient den optimalen Agenten für jede Aufgabe auswählen. Auf mehreren Benchmarks für visuelles Reasoning übertrifft das System sowohl monolithische als auch bestehende kompositorische Baselines und liefert damit einen neuen Stand der Technik.
Der Code und die Datenbank stehen unter https://github.com/ControlNet/MATA zur Verfügung.