Bessere Weltmodelle steigern die Leistung nach dem Training
In einer neuen Studie von arXiv (2512.03400v1) wird untersucht, wie explizite Weltmodellierungsziele die internen Repräsentationen von Transformern und deren Leistungsfähigkeit in späteren Phasen beeinflussen. Dabei wird ein kontrolliertes 2×2×2 Rubik's Cube als Testumgebung genutzt.
Die Forscher stellen sich zwei zentrale Fragen: Erstens, wie wirkt sich das gezielte Vortrainieren eines Weltmodells auf die latenten Darstellungen des Modells aus? Zweitens, inwieweit die Qualität des Weltmodells die Leistung nach einer Verstärkungslern-Phase (Post‑Training) verbessert. Dazu vergleichen sie die klassische Next‑Token‑Vorhersage mit zwei expliziten Weltmodellierungsstrategien – (i) Vortraining zur Zustandsvorhersage und (ii) ein kombiniertes Ziel aus Zustandsvorhersage und Next‑Token‑Vorhersage.
Nach dem Post‑Training mit Group Relative Policy Optimization (GRPO) wird die Aufgabenleistung gemessen. Die Qualität der Repräsentationen wird mittels linearer Probes und kausaler Interventionen bewertet. Die Ergebnisse zeigen, dass explizite Weltmodellierung zu besser linearen und kausal steuerbaren Zustandsdarstellungen führt. Noch bedeutender ist, dass diese verbesserten Darstellungen zu höheren Gewinnen bei GRPO führen, insbesondere bei schwierigeren Cube‑Zuständen.
Die Studie legt nahe, dass die Verfeinerung von Zustandsrepräsentationen die Effektivität von Post‑Training‑Methoden für sequenzielle Planungsaufgaben erheblich steigern kann.