Suche

Finde Modelle, Firmen und Themen

Suche im News-Archiv nach Themen, die du dauerhaft verfolgen willst.

Ergebnisse für “verifizierbare Belohnungen”
Forschung

<p>Entropiebasierte Verstärkungslern-Strategie verbessert LLM-Logik</p> <p>Forscher haben ein neues Verstärkungslernverfahren entwickelt, das die Fähigkeit großer Sprachmodelle (LLMs) zur logischen Schlussfolgerung deutlich steigert. Das Verfahren, bekannt als RLVR, nutzt verifizierbare Belohnungen, um die Genauigkeit der Modelle zu erhöhen. Ein häufiges Problem bei dieser Methode ist jedoch die Entropie-Kollaps, bei dem die Exploration der Policy eingeschränkt wird und damit die Problemlösungskapazität beg

arXiv – cs.AI