KnowRL: LLM-Reasoning mit minimaler Wissensführung durch Reinforcement Learning
Ein neues Verfahren namens KnowRL, vorgestellt auf arXiv (2604.12627v1), verspricht, die Fähigkeit großer Sprachmodelle (LLMs) zum logischen Denken deutlich zu verbessern. Während klassische Reinforcement-Learning-Ansät…
- Ein neues Verfahren namens KnowRL, vorgestellt auf arXiv (2604.12627v1), verspricht, die Fähigkeit großer Sprachmodelle (LLMs) zum logischen Denken deutlich zu verbesser…
- Während klassische Reinforcement-Learning-Ansätze wie RLVR zwar Fortschritte bringen, bleiben sie häufig durch spärliche Belohnungen bei komplexen Aufgaben begrenzt.
- KnowRL löst dieses Problem, indem es die Hilfestellung in Form von atomaren Wissenspunkten (Knowledge Points, KPs) zerlegt und mithilfe einer Constrained Subset Search (…
Ein neues Verfahren namens KnowRL, vorgestellt auf arXiv (2604.12627v1), verspricht, die Fähigkeit großer Sprachmodelle (LLMs) zum logischen Denken deutlich zu verbessern. Während klassische Reinforcement-Learning-Ansätze wie RLVR zwar Fortschritte bringen, bleiben sie häufig durch spärliche Belohnungen bei komplexen Aufgaben begrenzt. KnowRL löst dieses Problem, indem es die Hilfestellung in Form von atomaren Wissenspunkten (Knowledge Points, KPs) zerlegt und mithilfe einer Constrained Subset Search (CSS) kompakte, interaktionsbewusste Untergruppen für das Training erstellt.
Ein besonderes Augenmerk legt KnowRL auf das sogenannte „Pruning-Interaktions-Paradox“, bei dem das Entfernen einzelner KPs die Leistung steigern kann, während das gleichzeitige Entfernen mehrerer KPs nachteilig wirkt. Durch gezielte Optimierung dieser Abhängigkeitsstruktur wird die Auswahl der KPs robust gestaltet, sodass das Modell konsistente Fortschritte erzielt. Das Ergebnis ist ein starkes Trainingsergebnis auf dem 1,5‑Billionen‑Parameter‑Modell Nemotron, das KnowRL-Nemotron-1.5B genannt wird.
In acht verschiedenen Reasoning-Benchmarks übertrifft KnowRL-Nemotron-1.5B sowohl herkömmliche RL-Methoden als auch andere Hinting-Ansätze. Ohne zusätzliche KPs bei der Inferenz erreicht das Modell eine durchschnittliche Genauigkeit von 70,08 % – bereits 9,63 % besser als das Basismodell Nemotron-1.5B. Mit gezielt ausgewählten KPs steigt die Leistung auf 74,16 %, was einen neuen Stand der Technik für Modelle dieser Größe darstellt. Der gesamte Code, die Trainingsdaten und das Modell stehen öffentlich auf GitHub zur Verfügung: https://github.com/Hasuer/KnowRL.
Welche Linse du auf diese Meldung legen solltest
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.