KI News. Verstehen, was wichtig wird.

Suche Anmelden

Suche

Finde Modelle, Firmen und Themen

Suche im News-Archiv nach Themen, die du dauerhaft verfolgen willst.

Ergebnisse für “verifizierbare Belohnungen”

BeamPERL: RL mit verifizierbaren Belohnungen stärkt physikalisches Denken in kompakteren LLMs

Ein neues Verfahren namens BeamPERL nutzt Reinforcement Learning mit harten, verifizierbaren Belohnungen, um ein 1,5‑Billionen‑Parameter‑Mo…

arXiv – cs.AI 05.03.2026 05:00

Selbstdistillation ohne Labels: Konsensgating verbessert Dokumentenloses QA

In einer neuen Studie von Forschern aus dem Bereich der künstlichen Intelligenz wird gezeigt, wie ein Modell ohne externe Labels oder verif…

arXiv – cs.LG 25.02.2026 05:00

Neues Lernverfahren steigert KI‑Vorhersagen um 27 % – ohne Echtzeit‑Labels

Ein kürzlich auf arXiv veröffentlichtes Papier (2601.06336v1) präsentiert ein neues Verfahren, das das Problem löst, dass viele reale Vorhe…

arXiv – cs.LG 13.01.2026 05:00

Verifizierbare Belohnungen im RL: Wie Rauschen Lernen oder Scheitern lässt

In der neuesten Studie zum Reinforcement‑Learning‑Paradigma RLVR (Reinforcement Learning with Verifiable Rewards) wird ein zentrales Proble…

arXiv – cs.LG 09.01.2026 05:00

<p>Entropiebasierte Verstärkungslern-Strategie verbessert LLM-Logik</p> <p>Forscher haben ein neues Verstärkungslernverfahren entwickelt, das die Fähigkeit großer Sprachmodelle (LLMs) zur logischen Schlussfolgerung deutlich steigert. Das Verfahren, bekannt als RLVR, nutzt verifizierbare Belohnungen, um die Genauigkeit der Modelle zu erhöhen. Ein häufiges Problem bei dieser Methode ist jedoch die Entropie-Kollaps, bei dem die Exploration der Policy eingeschränkt wird und damit die Problemlösungskapazität beg

arXiv – cs.AI 05.12.2025 05:00

Selbstverbessernde RL: LLMs meistern offene Aufgaben ohne externe Belohnungen

Reinforcement Learning (RL) hat gezeigt, dass große Sprachmodelle (LLMs) ihre Fähigkeiten erheblich steigern können. Bei offenen Aufgaben b…

arXiv – cs.LG 12.11.2025 05:00

ProRe: Proaktives Belohnungssystem steigert GUI-Agenten um bis zu 22,4 %

In der Forschung zu großen Sprachmodellen (LLMs) spielt die Belohnung eine zentrale Rolle für deren Bewertung und Training. Traditionelle r…

arXiv – cs.AI 29.09.2025 05:00

Verifizierbare Composite Rewards reduzieren Reward Hacking bei LLMs

Neue Forschung aus dem arXiv-Preprint RLVR: Reinforcement Learning from Verifiable Rewards zeigt, dass große Sprachmodelle (LLMs) eigenstän…

arXiv – cs.LG 22.09.2025 05:00