Suche nach Belohnungssystem

Verbesserte Anspruchsprüfung durch gezielte Decomposition und Alignment

Eine neue Methode zur Überprüfung komplexer Behauptungen kombiniert Reinforcement Learning mit gezieltem Alignment, um die Qualität der Unt…

arXiv – cs.AI 26.02.2026 05:00

Forschung

Adaptive Meilenstein‑Belohnung verbessert GUI-Agenten um 10 %

Reinforcement Learning (RL) hat sich als Standardverfahren für die Schulung von mobilen GUI‑Agenten etabliert, stößt jedoch bei Aufgaben mi…

arXiv – cs.LG 13.02.2026 05:00

Forschung

AR-basierte Ferninteraktion beschleunigt lernende, zügige Robotik

Ein neues Forschungsprojekt aus dem Bereich der Robotik zeigt, wie Augmented‑Reality‑basierte Ferninteraktionen die Skalierbarkeit von Lern…

arXiv – cs.LG 10.02.2026 05:00

Forschung

Neues Verfahren verbessert LLM-Logik durch latentes Contrastive RL

Large Language Models (LLMs) glänzen bei der Erzeugung von Texten, doch bei komplexen Mehrschritt‑Aufgaben bleiben sie oft bei statistische…

arXiv – cs.LG 27.01.2026 05:00

Forschung

Neues Verfahren: Erfahrungsgesteuerte Symbolische Regression mit Zielorientiertem RL

In einem aktuellen Beitrag auf arXiv wird ein innovatives Konzept vorgestellt, das die klassische symbolische Regression neu definiert: EGR…

arXiv – cs.LG 22.01.2026 05:00

Forschung

KI-gestützte Lernmethode ermöglicht nachhaltige und sichere Schiffsnavigation

In der maritimen Transportbranche gewinnt Nachhaltigkeit zunehmend an Bedeutung, da sie sowohl ökologische als auch soziale Auswirkungen um…

arXiv – cs.LG 19.01.2026 05:00

Forschung

PRL: Belohnung steigert LLMs' Denkfähigkeit und erweitert Grenzen

Die Weiterentwicklung der Denkfähigkeiten großer Sprachmodelle (LLMs) steht seit langem im Fokus der Forschung. Traditionell werden dabei n…

arXiv – cs.LG 16.01.2026 05:00

Forschung

Reinforcement Learning optimiert Sprachmodelle für erklärbare Kreditkartenbetrugserkennung

Online‑Handelsplattformen und Zahlungsanbieter sehen sich zunehmend raffinierten Betrugsschlägen ausgesetzt, die von Identitätsdiebstahl ü…

arXiv – cs.AI 12.01.2026 05:00

Forschung

IIB-LPO: Neue Methode steigert LLM-Exploration und Genauigkeit

In der Welt des Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) für große Sprachmodelle (LLM) hat die sogenannte Exploration…

arXiv – cs.LG 12.01.2026 05:00

Forschung

Neues RL-Framework steigert Validität von SMILES-Generierung

Die Entwicklung zuverlässiger, gültiger und vielfältiger Moleküle ist ein zentrales Ziel der modernen Arzneimittelforschung. Durch die Verb…

arXiv – cs.LG 09.01.2026 05:00

Forschung

Adversariales und kooperatives Denken verbessert Retrieval-gestützte Sprachmodelle

In einer kürzlich veröffentlichten Studie auf arXiv wird ein neues Konzept vorgestellt, das große Sprachmodelle mit Retrieval-gestützter Ge…

arXiv – cs.AI 09.01.2026 05:00

Forschung

RL‑gestützte Agenten verbessern sich selbst mit einer Skill‑Bibliothek

In einer neuen Studie von arXiv (2512.17102v1) wird gezeigt, wie Reinforcement‑Learning (RL) Agenten, die auf großen Sprachmodellen (LLM) b…

arXiv – cs.AI 22.12.2025 05:00

Forschung

Kostenbewusste PoQ: Effiziente Bewertung dezentraler LLM-Inferezen

Dezentrale Inferenz von großen Sprachmodellen (LLM) verspricht transparente und zensurresistente KI‑Zugriffe, doch bisherige Verifikationsm…

arXiv – cs.AI 19.12.2025 05:00

Forschung

LLM-gestützte Tests kombinieren Codeabdeckung und Gameplay-Intention

Die rasante Verbreitung des „Games as a Service“-Modells verlangt nach häufigen Inhaltsupdates, was die Qualitätssicherung stark belastet…

arXiv – cs.AI 16.12.2025 05:00

Forschung

Altruistische Manöverplanung für autonome Fahrzeuge mit Multi-Agenten-A2C

Mit der zunehmenden Verbreitung autonomer Fahrzeuge entsteht ein Mischverkehr, in dem selbstfahrende und von Menschen gesteuerte Autos geme…

arXiv – cs.AI 11.12.2025 05:00

Forschung

rSIM: LLMs durch Verstärkte Strategieeinführung zu leistungsstarken Denkmaschinen

Ein neues Verfahren namens rSIM (reinforced strategy injection mechanism) ermöglicht es großen Sprachmodellen, ihre Denkfähigkeiten drastis…

arXiv – cs.AI 10.12.2025 05:00

Forschung

SPARK: Schrittweises, Referenzfreies RL mit Prozessbelohnungsmodellen

Das neue Framework SPARK eröffnet einen wegweisenden Ansatz für Reinforcement‑Learning ohne die Notwendigkeit von Schritt‑level‑Annotations…

arXiv – cs.LG 04.12.2025 05:00

Forschung

Reinforcement Learning korrigiert rauschende Labels – neue Methode übertrifft Beste

In der Welt des maschinellen Lernens stellen unschöne Labels ein großes Hindernis dar, denn sie können die Genauigkeit von Vorhersagemodell…

arXiv – cs.LG 26.11.2025 05:00

Forschung

Neues Tool zur Patentclaims-Optimierung: Tree-of-Claims nutzt Multi-Agenten und MCTS

Die Optimierung von Patentclaims ist ein entscheidender, aber komplexer Prozess, bei dem ein feines Gleichgewicht zwischen maximaler Neuhei…

arXiv – cs.LG 24.11.2025 05:00

Forschung

MIR: Effiziente Erkundung in episodischem Multi-Agent RL durch Belohnung

In der Welt des Reinforcement Learning stellen episodische Belohnungen ein großes Problem dar: Sie sind selten und schwer zu erreichen, bes…

arXiv – cs.AI 24.11.2025 05:00

Forschung

Rubrikbasierte Belohnung steigert KI-Logik in mehreren Fachbereichen

In den letzten Jahren hat die Verstärkungslern‑Technologie die Fähigkeit großer Sprachmodelle, komplexe Probleme zu lösen, deutlich vorange…

arXiv – cs.AI 18.11.2025 05:00

Forschung

GRAPH‑GRPO‑LEX: Automatisierte Vertragsanalyse mit Graphen & RL

Verträge sind komplexe Dokumente mit vielen formalen Strukturen, expliziten und impliziten Abhängigkeiten sowie reichhaltigem semantischem…

arXiv – cs.AI 11.11.2025 05:00

Aktuell

Interim-Bericht: Fortschritte bei der Bekämpfung von Reward Hacking

In einem aktuellen Zwischenbericht haben Forscher ihre neuesten Erkenntnisse zur Bekämpfung von Reward Hacking veröffentlicht. Der Bericht…

EleutherAI – Blog 07.10.2025 01:00

Forschung

ProRe: Proaktives Belohnungssystem steigert GUI-Agenten um bis zu 22,4 %

In der Forschung zu großen Sprachmodellen (LLMs) spielt die Belohnung eine zentrale Rolle für deren Bewertung und Training. Traditionelle r…

arXiv – cs.AI 29.09.2025 05:00

Forschung

Verifizierbare Composite Rewards reduzieren Reward Hacking bei LLMs

Neue Forschung aus dem arXiv-Preprint RLVR: Reinforcement Learning from Verifiable Rewards zeigt, dass große Sprachmodelle (LLMs) eigenstän…

arXiv – cs.LG 22.09.2025 05:00

Forschung

RLFactory: Plug-and-Play-Framework stärkt Tool‑Nutzung von LLMs

Ein neues Open‑Source-Framework namens RLFactory wurde auf arXiv vorgestellt und verspricht, die Interaktion von großen Sprachmodellen (LLM…

arXiv – cs.AI 10.09.2025 05:00

Forschung

Neues RL-Modell verbessert kreative Schreibqualität und Regelkonformität

Forscher haben ein neues Reinforcement-Learning-Verfahren namens RLMR entwickelt, das große Sprachmodelle gezielt für kreatives Schreiben t…

arXiv – cs.AI 27.08.2025 05:00

Forschung

Reinforcement Learning überwindet SFT-Platte: Chart‑zu‑Code neu gedacht

In der Forschung zu vision‑language Modellen hat sich das Reinforcement Learning (RL) als besonders wirkungsvoll für komplexe Schlussfolger…

arXiv – cs.AI 20.08.2025 05:00

Forschung

Physikbasierte Belohnungsmaschinen beschleunigen Reinforcement Learning

Reward‑Machines (RMs) ermöglichen es, nicht‑Markovsche Belohnungen in Reinforcement‑Learning‑Systemen strukturiert zu definieren. Sie trenn…

arXiv – cs.LG 21.08.2025 05:00

Forschung

Reinforcement Learning mit Rubrik‑Ankern: LLMs werden menschlicher

Ein neues Paradigma namens Reinforcement Learning from Verifiable Rewards (RLVR) hat die Entwicklung großer Sprachmodelle (LLMs) beschleuni…

arXiv – cs.AI 19.08.2025 05:00

Finde Modelle, Firmen und Themen

Verbesserte Anspruchsprüfung durch gezielte Decomposition und Alignment

Adaptive Meilenstein‑Belohnung verbessert GUI-Agenten um 10 %

AR-basierte Ferninteraktion beschleunigt lernende, zügige Robotik

Neues Verfahren verbessert LLM-Logik durch latentes Contrastive RL

Neues Verfahren: Erfahrungsgesteuerte Symbolische Regression mit Zielorientiertem RL

KI-gestützte Lernmethode ermöglicht nachhaltige und sichere Schiffsnavigation

PRL: Belohnung steigert LLMs' Denkfähigkeit und erweitert Grenzen

Reinforcement Learning optimiert Sprachmodelle für erklärbare Kreditkartenbetrugserkennung

IIB-LPO: Neue Methode steigert LLM-Exploration und Genauigkeit

Neues RL-Framework steigert Validität von SMILES-Generierung

Adversariales und kooperatives Denken verbessert Retrieval-gestützte Sprachmodelle

RL‑gestützte Agenten verbessern sich selbst mit einer Skill‑Bibliothek

Kostenbewusste PoQ: Effiziente Bewertung dezentraler LLM-Inferezen

LLM-gestützte Tests kombinieren Codeabdeckung und Gameplay-Intention

Altruistische Manöverplanung für autonome Fahrzeuge mit Multi-Agenten-A2C

rSIM: LLMs durch Verstärkte Strategieeinführung zu leistungsstarken Denkmaschinen

SPARK: Schrittweises, Referenzfreies RL mit Prozessbelohnungsmodellen

Reinforcement Learning korrigiert rauschende Labels – neue Methode übertrifft Beste

Neues Tool zur Patentclaims-Optimierung: Tree-of-Claims nutzt Multi-Agenten und MCTS

MIR: Effiziente Erkundung in episodischem Multi-Agent RL durch Belohnung

Rubrikbasierte Belohnung steigert KI-Logik in mehreren Fachbereichen

GRAPH‑GRPO‑LEX: Automatisierte Vertragsanalyse mit Graphen & RL

Interim-Bericht: Fortschritte bei der Bekämpfung von Reward Hacking

ProRe: Proaktives Belohnungssystem steigert GUI-Agenten um bis zu 22,4 %

Verifizierbare Composite Rewards reduzieren Reward Hacking bei LLMs

RLFactory: Plug-and-Play-Framework stärkt Tool‑Nutzung von LLMs

Neues RL-Modell verbessert kreative Schreibqualität und Regelkonformität

Reinforcement Learning überwindet SFT-Platte: Chart‑zu‑Code neu gedacht

Physikbasierte Belohnungsmaschinen beschleunigen Reinforcement Learning

Reinforcement Learning mit Rubrik‑Ankern: LLMs werden menschlicher

🍪 Cookie-Einstellungen

Adaptive Meilenstein‑Belohnung verbessert GUI-Agenten um 10 %

ProRe: Proaktives Belohnungssystem steigert GUI-Agenten um bis zu 22,4 %