Omni-AutoThink: Adaptive multimodale Argumentation mit Reinforcement Learning

arXiv – cs.AI Original ≈2 Min. Lesezeit
Anzeige

Ein neues Forschungsprojekt namens Omni-AutoThink wurde vorgestellt, das die Art und Weise, wie multimodale KI‑Modelle denken, revolutionieren soll. Durch die Kombination von adaptivem Supervised Fine‑Tuning und Reinforcement Learning kann das System seine Denkstärke dynamisch an die Komplexität einer Aufgabe anpassen.

Obwohl aktuelle Omni‑Modelle bereits eine einheitliche Wahrnehmung und Erzeugung von Text, Audio und Bild ermöglichen, zeigen sie häufig starre Denkverhalten. Sie neigen dazu, bei einfachen Fragen zu überdenken oder bei komplexen Problemen gar nicht zu denken. Omni-AutoThink adressiert dieses Problem, indem es die Tiefe der Argumentation gezielt steuert.

Der Ansatz besteht aus zwei aufeinanderfolgenden Phasen. Zunächst wird das Modell mit einer großen Menge an reasoning‑angereicherten Daten im Rahmen von Adaptive Supervised Fine‑Tuning (Adaptive SFT) trainiert, um grundlegende Denkfähigkeiten zu erlernen. Anschließend wird die Adaptive Reinforcement‑Learning‑Phase (Adaptive GRPO) eingesetzt, um die Denkstrategien anhand von Aufgabenkomplexität und Belohnungsfeedback zu optimieren.

Zur Bewertung des adaptiven Denkens wurde ein umfassendes Benchmark‑Set entwickelt, das Aufgaben in vier Modalitäten abdeckt: rein textuell, text‑Audio, text‑Bild sowie text‑Audio‑Bild. Für jede Modality sind Trainings‑ und Test‑Sätze bereitgestellt, sodass die Leistung des Modells systematisch verglichen werden kann.

Experimentelle Ergebnisse zeigen, dass Omni-AutoThink die adaptive Denkleistung deutlich über den bisherigen Baselines hinaus verbessert. Alle Benchmark‑Daten und der zugehörige Code werden öffentlich zugänglich gemacht, um die Forschungsgemeinschaft zu unterstützen und weitere Fortschritte in der multimodalen KI zu fördern.

Ähnliche Artikel