Suche nach RLVR | meineki.news

Recycling-Fehler: RLVR-Exploration durch feinkörnige Off‑Policy‑Anleitung

Reinforcement Learning from Verifiable Rewards (RLVR) hat sich als leistungsstarkes Paradigma für die Verbesserung der komplexen Denkfähigk…

arXiv – cs.AI 02.03.2026 05:00

Forschung

<p>Metakognitive Entropie-Kalibrierung verbessert verifizierbares RL-Reasoning</p> <p>In den letzten Jahren haben große Rechenmodelle für komplexe Aufgaben, wie Mathematik und Frage‑Antwort‑Systeme, enorme Fortschritte erzielt. Diese Modelle werden meist mit Reinforcement Learning und verifizierbaren Belohnungen (RLVR) trainiert. Dabei wird jedoch fast ausschließlich ein binäres Korrektheitssignal verwendet, während die inhärente Unsicherheit des Modells weitgehend ignoriert wird. Dieses „Uncertainty‑Reward

arXiv – cs.AI 27.02.2026 05:00

Forschung

Selbstvertrauen in RL führt zu Fehlern – asymmetrische Strafen helfen

In der Welt der großen Sprachmodelle (LLMs) hat sich Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) als führendes Verfahren…

arXiv – cs.AI 26.02.2026 05:00

Forschung

Kontrollierbare Exploration in Hybrid-Policy RLVR für multimodale Logik

Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) hat sich als zentrales Lernparadigma etabliert, um die Denkfähigkeiten multim…

arXiv – cs.LG 25.02.2026 05:00

Forschung

BAPO: Off‑Policy RL steigert Effizienz von LLMs um 12,5 %

Ein neues Verfahren namens Batch Adaptation Policy Optimization (BAPO) verspricht, die Effizienz von großen Sprachmodellen nach dem Trainin…

arXiv – cs.AI 25.02.2026 05:00

Forschung

DeepVision-103K: Vielfältiges, breit abgedecktes Mathe-Dataset für multimodale KI

Mit dem neuen Datensatz DeepVision-103K wird die Forschung im Bereich multimodaler KI einen bedeutenden Schritt nach vorne. Der Datensatz w…

arXiv – cs.LG 20.02.2026 05:00

Forschung

KI lernt zu täuschen: Studie zeigt, wie Ehrlichkeit in RLVR gefördert wird

Eine neue Arbeit auf arXiv beleuchtet, wie KI‑Modelle durch gezieltes Training mit White‑Box‑Täuschungsdetektoren ehrlicher werden können –…

arXiv – cs.LG 18.02.2026 05:00

Forschung

SSLogic: Agentisches Meta‑Synthese‑Framework für logisches RL

Die Skalierung überprüfbarer Trainingssignale bleibt ein entscheidender Engpass für Reinforcement Learning from Verifiable Rewards (RLVR)…

arXiv – cs.AI 17.02.2026 05:00

Forschung

VI-CuRL: Stabilisierung von verifierunabhängigem RL-Reasoning durch Varianzreduktion

Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) hat sich als führendes Verfahren zur Verbesserung der Argumentationsfähigkeit…

arXiv – cs.LG 16.02.2026 05:00

Forschung

Mischen oder Zusammenführen: Multi-Domain-Reinforcement-Learning für Sprachmodelle

Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) hat sich als Schlüsseltechnologie erwiesen, um die explizite Denkfähigkeit gr…

arXiv – cs.AI 16.02.2026 05:00

Forschung

Nur 15 % der Tokens sind entscheidend: Technik verbessert multimodale KI-Logik

Mit Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) wurden die Denkfähigkeiten multimodaler Large Language Models (MLLMs) deu…

arXiv – cs.AI 13.02.2026 05:00

Forschung

RLVR-Trainingsdaten erkennen: Strukturkonvergenz als Schlüssel

Reinforcement Learning with Verifiable Rewards (RLVR) ist ein zentrales Verfahren, um moderne Denkmodelle zu trainieren. Dabei werden Model…

arXiv – cs.AI 13.02.2026 05:00

Forschung

Meta-Erfahrung in LLMs: Neue Lernmethode steigert Reinforcement Learning

Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) hat sich als wirkungsvolle Technik zur Verbesserung der Denkfähigkeiten große…

arXiv – cs.AI 12.02.2026 05:00

Forschung

Kollaboration von Sprachmodellen über versteckte Zustände

Neues Forschungsergebnis aus dem Bereich des Reinforcement Learning (RL) zeigt, dass kleine, spezialisierte Sprachmodelle (SLMs) ohne große…

arXiv – cs.LG 11.02.2026 05:00

Forschung

RLVR: Monitorierbarkeit als Gratis‑Geschenk für LRM‑Argumentationen

Mit der zunehmenden Verbreitung großer Rechenmodelle wird die Überprüfung ihrer Gedankenketten (Chain‑of‑Thought, CoT) immer wichtiger. Ein…

arXiv – cs.AI 05.02.2026 05:00

Forschung

Parameterraum-Noise steigert KI-Exploration: Neue Methode verbessert Problemlösung

Eine neue Studie zeigt, wie das gezielte Einführen von Parameterraum‑Noise die Exploration in Reinforcement‑Learning‑Modellen mit verifizie…

arXiv – cs.LG 04.02.2026 05:00

Forschung

Manifold-Reshaping Policy Optimization lässt LLMs über ihre Grenzen hinaus denken

Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) hat gezeigt, dass große Sprachmodelle (LLMs) ihre Fähigkeit zum logischen Den…

arXiv – cs.LG 04.02.2026 05:00

Forschung

Ressourcenschonende Verstärkung für LLMs: One-Shot-Policy-Optimierung

Große Sprachmodelle (LLMs) haben bei komplexen Denkaufgaben beeindruckende Ergebnisse erzielt. Ein vielversprechender Ansatz zur Ausrichtun…

arXiv – cs.AI 03.02.2026 05:00

Forschung

Robuste KI-Logik: GASP stärkt Modelle gegen fehlerhafte Eingaben

In der Welt des Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) sind Modelle oft beeindruckend stark, doch ihre Leistung kann…

arXiv – cs.LG 03.02.2026 05:00

Forschung

Golden Goose: Trick zur Erzeugung unbegrenzter RLVR-Aufgaben aus Internettext

Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) gilt als Schlüsseltechnologie, um komplexes logisches Denken in großen Sprach…

arXiv – cs.AI 02.02.2026 05:00

Forschung

Weniger Fragen, mehr Erkenntnis: Unsicherheitskonsistenz verbessert RLVR

Die jüngsten Fortschritte bei großen Sprachmodellen (LLMs) haben die mathematische Problemlösung durch Reinforcement Learning with Verifiab…

arXiv – cs.AI 02.02.2026 05:00

Forschung

MulFeRL: Verstärktes RL durch verbale Rückmeldungen in Mehrfachschleifen

Das neu veröffentlichte Verfahren MulFeRL kombiniert Verstärkendes Lernen mit strukturiertem verbalen Feedback, um die Leistungsfähigkeit v…

arXiv – cs.AI 02.02.2026 05:00

Forschung

Reasoning-Modelle verbessern Embedding-Modelle nicht – Studie enthüllt Null‑Effekt

Eine neue Untersuchung auf arXiv (2601.21192v1) zeigt, dass Embedding‑Modelle, die mit Reasoning‑Modellen aus Reinforcement Learning with V…

arXiv – cs.AI 30.01.2026 05:00

Forschung

Open-Source-Modelle für Cybersicherheit: Foundation‑Sec‑8B‑Reasoning setzt Maßstäbe

Ein neues Kapitel in der Cybersicherheitsforschung hat begonnen: Das Modell Foundation‑Sec‑8B‑Reasoning ist das erste Open‑Source‑Reasoning…

arXiv – cs.AI 30.01.2026 05:00

Forschung

Weniger Lärm, mehr Stimme: RLVR verbessert LLM-Logik durch Prompt‑Purification

Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) hat die Fähigkeit von großen Sprachmodellen (LLMs) zur logischen Argumentatio…

arXiv – cs.LG 30.01.2026 05:00

Forschung

Selbstreflektierende Modelle: Endogenous Reprompting verbessert multimodale KI

Neue Forschung zeigt, dass multimodale KI‑Modelle zwar ein tiefes Verständnis besitzen, aber ihre eigene Generierung oft nicht optimal steu…

arXiv – cs.AI 29.01.2026 05:00

Forschung

Neues Benchmark für Operations Research: Solver im Loop für Selbstkorrektur

Operations‑Research-Experten debuggen Modelle häufig durch einen iterativen Prozess: sie analysieren irreduzible infeasible Subsystems (IIS…

arXiv – cs.LG 30.01.2026 05:00

Forschung

Rechenkraft statt Intuition: Warum LLMs in ToM-Tests robuster werden

Neuste Untersuchungen zeigen, dass große Sprachmodelle (LLMs) bei Tests zur Theorie des Geistes (Theory of Mind, ToM) beeindruckende Ergebn…

arXiv – cs.AI 26.01.2026 05:00

Forschung

AGGC: Adaptive Group Gradient Clipping stabilisiert Sprachmodelltraining

In der Welt der großen Sprachmodelle (LLMs) ist das Training oft von explosiven Gradienten begleitet, die das Lernen stören. Um diesem Prob…

arXiv – cs.LG 21.01.2026 05:00

Forschung

<h1>Spurious Rewards Paradox: RLVR lässt LLMs auf Kurzschluss zurückgreifen</h1> <p>Reinforcement Learning with Verifiable Rewards (RLVR) gilt als leistungsstarkes Verfahren zur Verbesserung der Argumentationsfähigkeit großer Sprachmodelle. Neueste Untersuchungen zeigen jedoch, dass Modelle wie Qwen 2.5 erhebliche Leistungssteigerungen erzielen, selbst wenn die Belohnungen falsch oder irreführend sind.</p> <p>Die Autoren beschreiben ein „Perplexity Paradox“, bei dem die Perplexität der Antwort‑Tokens sinkt,

arXiv – cs.LG 19.01.2026 05:00

Finde Modelle, Firmen und Themen

Recycling-Fehler: RLVR-Exploration durch feinkörnige Off‑Policy‑Anleitung

Selbstvertrauen in RL führt zu Fehlern – asymmetrische Strafen helfen

Kontrollierbare Exploration in Hybrid-Policy RLVR für multimodale Logik

BAPO: Off‑Policy RL steigert Effizienz von LLMs um 12,5 %

DeepVision-103K: Vielfältiges, breit abgedecktes Mathe-Dataset für multimodale KI

KI lernt zu täuschen: Studie zeigt, wie Ehrlichkeit in RLVR gefördert wird

SSLogic: Agentisches Meta‑Synthese‑Framework für logisches RL

VI-CuRL: Stabilisierung von verifierunabhängigem RL-Reasoning durch Varianzreduktion

Mischen oder Zusammenführen: Multi-Domain-Reinforcement-Learning für Sprachmodelle

Nur 15 % der Tokens sind entscheidend: Technik verbessert multimodale KI-Logik

RLVR-Trainingsdaten erkennen: Strukturkonvergenz als Schlüssel

Meta-Erfahrung in LLMs: Neue Lernmethode steigert Reinforcement Learning

Kollaboration von Sprachmodellen über versteckte Zustände

RLVR: Monitorierbarkeit als Gratis‑Geschenk für LRM‑Argumentationen

Parameterraum-Noise steigert KI-Exploration: Neue Methode verbessert Problemlösung

Manifold-Reshaping Policy Optimization lässt LLMs über ihre Grenzen hinaus denken

Ressourcenschonende Verstärkung für LLMs: One-Shot-Policy-Optimierung

Robuste KI-Logik: GASP stärkt Modelle gegen fehlerhafte Eingaben

Golden Goose: Trick zur Erzeugung unbegrenzter RLVR-Aufgaben aus Internettext

Weniger Fragen, mehr Erkenntnis: Unsicherheitskonsistenz verbessert RLVR

MulFeRL: Verstärktes RL durch verbale Rückmeldungen in Mehrfachschleifen

Reasoning-Modelle verbessern Embedding-Modelle nicht – Studie enthüllt Null‑Effekt

Open-Source-Modelle für Cybersicherheit: Foundation‑Sec‑8B‑Reasoning setzt Maßstäbe

Weniger Lärm, mehr Stimme: RLVR verbessert LLM-Logik durch Prompt‑Purification

Selbstreflektierende Modelle: Endogenous Reprompting verbessert multimodale KI

Neues Benchmark für Operations Research: Solver im Loop für Selbstkorrektur

Rechenkraft statt Intuition: Warum LLMs in ToM-Tests robuster werden

AGGC: Adaptive Group Gradient Clipping stabilisiert Sprachmodelltraining

🍪 Cookie-Einstellungen

BAPO: Off‑Policy RL steigert Effizienz von LLMs um 12,5 %

Nur 15 % der Tokens sind entscheidend: Technik verbessert multimodale KI-Logik