Forschung arXiv – cs.AI

SWIRL: Selbstverbessernde Weltmodellierung ohne Aktionsdaten

Ein neues Forschungsprojekt namens SWIRL (Self‑Improving World Modelling with Latent Actions) zeigt, wie große Sprach‑ und Bildmodelle ihre Weltvorstellungen ohne kostenintensive, mit Aktionen beschriftete Daten verbess…

≈2 Min. Lesezeit Originalquelle
Visuelle Illustration fuer KI-Kontext
Kernaussagen
Das nimmst du aus dem Beitrag mit
  • Ein neues Forschungsprojekt namens SWIRL (Self‑Improving World Modelling with Latent Actions) zeigt, wie große Sprach‑ und Bildmodelle ihre Weltvorstellungen ohne kosten…
  • Durch die Annahme, dass Aktionen als latente Variablen behandelt werden können, lernt SWIRL aus reinen Zustandssequenzen, die in der Praxis viel häufiger vorkommen.
  • Der Ansatz besteht aus zwei sich ergänzenden Modellen: einem Forward World Modeller (FWM), der die nächste Zustandsvorhersage $P_\theta(Y|X,Z)$ erzeugt, und einem Invers…

Ein neues Forschungsprojekt namens SWIRL (Self‑Improving World Modelling with Latent Actions) zeigt, wie große Sprach‑ und Bildmodelle ihre Weltvorstellungen ohne kostenintensive, mit Aktionen beschriftete Daten verbessern können. Durch die Annahme, dass Aktionen als latente Variablen behandelt werden können, lernt SWIRL aus reinen Zustandssequenzen, die in der Praxis viel häufiger vorkommen.

Der Ansatz besteht aus zwei sich ergänzenden Modellen: einem Forward World Modeller (FWM), der die nächste Zustandsvorhersage $P_\theta(Y|X,Z)$ erzeugt, und einem Inverse Dynamics Modeller (IDM), der die latente Aktion $Q_\phi(Z|X,Y)$ schätzt. SWIRL wechselt zwischen einer Variational‑Information‑Maximisation‑Phase, die das FWM dazu anregt, Zustände zu generieren, die mit den latenten Aktionen möglichst stark korreliert sind, und einer ELBO‑Maximisation‑Phase, in der das IDM die beobachteten Übergänge erklärt. Diese beiden Schritte bilden einen Koordinaten‑Aufstieg, der die Modelle kontinuierlich verfeinert.

Die beiden Modelle werden mittels Reinforcement Learning – genauer gesagt mit dem GRPO‑Algorithmus – trainiert. Dabei dient die Log‑Wahrscheinlichkeit des gefrorenen Modells als Belohnungssignal, wodurch die beiden Modelle sich gegenseitig verbessern. SWIRL liefert zudem theoretische Lernbarkeitssicherheiten für beide Update‑Schritte, was die Stabilität und Nachvollziehbarkeit des Ansatzes unterstreicht.

In umfangreichen Tests mit großen Sprach‑ und Bildmodellen zeigte SWIRL signifikante Fortschritte in verschiedenen Umgebungen. Die Ergebnisse umfassen einen Anstieg von 16 % bei AURORABench, 28 % bei ByteMorph, 16 % bei WorldPredictionBench und 14 % bei StableToolBench. Diese Zahlen demonstrieren, dass selbstverbessernde Weltmodelle ohne explizite Aktionsdaten ein vielversprechender Weg sind, die Leistungsfähigkeit von KI-Systemen weiter zu steigern.

Einordnen in 60 Sekunden

Welche Linse du auf diese Meldung legen solltest

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

Was veraendert sich praktisch?
Ist das eher Signal, Produkt oder nur kurzfristiger Hype?
Begriffe zum Einordnen

Kontext ohne Glossar-Suche

SWIRL
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Latente Aktionen
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Forward World Modeller
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
arXiv – cs.AI
Diese Quelle setzt den Ausgangspunkt fuer die Meldung. Pruefe immer, ob sie eher Forschung, Produktmarketing oder Praxisperspektive liefert.
Naechste Schritte

Aehnliche Entwicklungen zum Weiterlesen