IPR: Interaktiver Physik-Reasoner verbessert spielbasierte Logik
In einer neuen Studie aus dem arXiv-Repository wird ein innovatives System namens IPR vorgestellt, das menschliches physikalisches Denken durch Interaktion mit Spielen erlernen soll. Das Team hat über 1.000 heterogene Spiele zusammengestellt, um die Agenten in einer Game-to-Unseen (G2U)-Umgebung zu testen und dabei drei menschlich inspirierten Leistungsstufen – Survival, Curiosity und Utility – zu evaluieren.
Die Analyse zeigt, dass herkömmliche Vision‑Language‑Modelle (VLM) zwar in der Lage sind, zu reasonieren, aber in interaktiven Szenarien keine vorausschauende Planung durchführen können. Weltmodelle hingegen erzeugen zwar Rollouts, tendieren jedoch dazu, visuelle Muster zu imitieren, statt physikalische Zusammenhänge zu analysieren. IPR kombiniert die Stärken beider Ansätze, indem es Rollouts eines Weltmodells nutzt, um die Politik eines VLM zu bewerten und zu verstärken. Zusätzlich wird PhysCode eingeführt, ein physikzentrierter Aktionscode, der semantische Absichten mit dynamischen Konsequenzen verknüpft und so einen gemeinsamen Aktionsraum für Vorhersage und Reasoning schafft.
Nach dem Pre‑Training auf mehr als 1.000 Spielen erreicht IPR eine robuste Leistung auf allen drei Stufen, übertrifft GPT‑5 bei Curiosity und erreicht die gleiche Gesamtleistung wie GPT‑5. Die Ergebnisse zeigen, dass die Leistung mit zunehmender Anzahl an Trainingsspielen und Interaktionsschritten steigt und dass das Modell auch in Zero‑Shot-Szenarien auf völlig unbekannte Spiele übertragbar ist. Diese Befunde unterstreichen die Bedeutung physikzentrierter Interaktion als Weg zu stetig verbesserten physikalischen Denkfähigkeiten.