Neues Benchmark deckt Schwächen großer Sprachmodelle im Mathematik‑Denken auf

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Wissenschaftler haben ein neues Benchmark namens ReasoningMath‑Plus veröffentlicht, das 150 sorgfältig ausgewählte Aufgaben enthält, die speziell darauf ausgelegt sind, die strukturelle Denkfähigkeit von großen Sprachmodellen (LLMs) zu prüfen. Im Gegensatz zu bisherigen Datensätzen, die vorwiegend auf vorgefertigten Rechenvorlagen und flachen arithmetischen Zerlegungen basieren, fordern die neuen Aufgaben die Modelle heraus, mehrere gleichzeitig vorhandene Einschränkungen zu koordinieren, konstruktive Lösungen zu entwickeln und räumliche Zusammenhänge zu erkennen.

Zur Bewertung der Lösungswege wurde die deterministische Schritt‑für‑Schritt‑Bewertung HCRS (Hazard‑aware Chain‑based Rule Score) eingeführt. Zusätzlich wurde ein Process Reward Model (PRM) trainiert, das anhand der annotierten Lösungsabläufe die Qualität der einzelnen Schritte beurteilt. Die Ergebnisse zeigen, dass führende Modelle zwar bei der Endantwort noch relativ hohe Genauigkeiten von bis zu 5,8 von 10 Punkten erreichen, die HCRS‑Bewertung jedoch deutlich niedriger ausfällt (Durchschnitt 4,36 von 10, höchster Wert 5,14 von 10). Dies verdeutlicht, dass reine Ergebnismetriken die wahre Robustheit des Denkprozesses überschätzen.

ReasoningMath‑Plus und die zugehörigen Bewertungstools stellen damit einen wichtigen Schritt dar, um die tatsächlichen kognitiven Fähigkeiten von LLMs im mathematischen Kontext besser zu verstehen und weiter zu verbessern. Die Veröffentlichung bietet Forschern und Entwicklern ein neues, praxisnahes Instrument, um gezielt an den Schwachstellen der aktuellen Modelle zu arbeiten und die nächste Generation von KI‑Systemen mit echter struktureller Denkkompetenz auszustatten.

Ähnliche Artikel