SWIRL: Selbstverbessernde Weltmodellierung ohne Aktionsdaten

Ein neues Forschungsprojekt namens SWIRL (Self‑Improving World Modelling with Latent Actions) zeigt, wie große Sprach‑ und Bildmodelle ihre Weltvorstellungen ohne kostenintensive, mit Aktionen beschriftete Daten verbessern können. Durch die Annahme, dass Aktionen als latente Variablen behandelt werden können, lernt SWIRL aus reinen Zustandssequenzen, die in der Praxis viel häufiger vorkommen.

Der Ansatz besteht aus zwei sich ergänzenden Modellen: einem Forward World Modeller (FWM), der die nächste Zustandsvorhersage $P_\theta(Y|X,Z)$ erzeugt, und einem Inverse Dynamics Modeller (IDM), der die latente Aktion $Q_\phi(Z|X,Y)$ schätzt. SWIRL wechselt zwischen einer Variational‑Information‑Maximisation‑Phase, die das FWM dazu anregt, Zustände zu generieren, die mit den latenten Aktionen möglichst stark korreliert sind, und einer ELBO‑Maximisation‑Phase, in der das IDM die beobachteten Übergänge erklärt. Diese beiden Schritte bilden einen Koordinaten‑Aufstieg, der die Modelle kontinuierlich verfeinert.

Die beiden Modelle werden mittels Reinforcement Learning – genauer gesagt mit dem GRPO‑Algorithmus – trainiert. Dabei dient die Log‑Wahrscheinlichkeit des gefrorenen Modells als Belohnungssignal, wodurch die beiden Modelle sich gegenseitig verbessern. SWIRL liefert zudem theoretische Lernbarkeitssicherheiten für beide Update‑Schritte, was die Stabilität und Nachvollziehbarkeit des Ansatzes unterstreicht.

In umfangreichen Tests mit großen Sprach‑ und Bildmodellen zeigte SWIRL signifikante Fortschritte in verschiedenen Umgebungen. Die Ergebnisse umfassen einen Anstieg von 16 % bei AURORABench, 28 % bei ByteMorph, 16 % bei WorldPredictionBench und 14 % bei StableToolBench. Diese Zahlen demonstrieren, dass selbstverbessernde Weltmodelle ohne explizite Aktionsdaten ein vielversprechender Weg sind, die Leistungsfähigkeit von KI-Systemen weiter zu steigern.

Ähnliche Artikel

🍪 Cookie-Einstellungen