BeamPERL: RL mit verifizierbaren Belohnungen stärkt physikalisches Denken in kompakteren LLMs

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Ein neues Verfahren namens BeamPERL nutzt Reinforcement Learning mit harten, verifizierbaren Belohnungen, um ein 1,5‑Billionen‑Parameter‑Modell auf das klassische Ingenieurproblem der Balkenstatik zu trainieren. Durch die Verwendung von binären Korrektheitsbelohnungen aus symbolischen Solver‑Ergebnissen erreicht das Modell einen bemerkenswerten Anstieg von 66,7 % bei Pass@1 im Vergleich zur Ausgangsversion.

Die Ergebnisse zeigen jedoch, dass die erlernte Kompetenz anisotrop ist: Während das Modell bei einer Zunahme der Lasten gut generalisiert, versagt es bei topologischen Änderungen wie verlegten Stützpunkten, obwohl dieselben Gleichgewichts­bedingungen gelten. Die stärkste Leistung wird in Zwischenschritten des Trainings beobachtet; eine weitere Optimierung führt zu einer Abnahme der Robustheit, obwohl die Belohnung weiterhin hoch bleibt.

Diese Beobachtungen verdeutlichen, dass outcome‑level‑Alignment – also das Belohnen von korrekten Endergebnissen – eher zu prozeduralen Lösungsvorlagen führt, anstatt die zugrunde liegenden physikalischen Gesetze zu internalisieren. Selbst analytisch exakte Belohnungen garantieren nicht automatisch übertragbares physikalisches Denken. Die Studie legt nahe, dass verifizierbare Belohnungen mit strukturiertem Reasoning‑Scaffolding kombiniert werden müssen, um über reine Mustererkennung hinaus robuste wissenschaftliche Argumentation zu ermöglichen.

Ähnliche Artikel