Suche nach Reinforcement Learning

LLMs meistern Multi‑Turn-Interaktion dank neuer RL‑Methode

Neues Forschungspapier aus dem arXiv-Repository zeigt, dass große Sprachmodelle (LLMs) zwar bei vollständigen Informationen in einem einzig…

arXiv – cs.AI 06.03.2026 05:00

Forschung

BandPO: Dynamische Grenzen für stabile LLM‑Reinforcement‑Learning‑Optimierung

In der Welt der großen Sprachmodelle (LLMs) ist die Stabilität beim Reinforcement Learning entscheidend. Traditionell sorgt das Clipping‑Ve…

arXiv – cs.LG 06.03.2026 05:00

Forschung

Neues Lernverfahren optimiert DRAM-Equalizer mit Worst-Case-Garantie

Die Optimierung von Equalizer‑Parametern ist entscheidend für die Signalintegrität in Hochgeschwindigkeits‑Speichersystemen, die bei Multi‑…

arXiv – cs.LG 06.03.2026 05:00

Forschung

BeamPERL: RL mit verifizierbaren Belohnungen stärkt physikalisches Denken in kompakteren LLMs

Ein neues Verfahren namens BeamPERL nutzt Reinforcement Learning mit harten, verifizierbaren Belohnungen, um ein 1,5‑Billionen‑Parameter‑Mo…

arXiv – cs.AI 05.03.2026 05:00

Forschung

MAGE: Meta-Lern-Framework für LLM-Agenten – Strategische Erkundung & Ausnutzung

In der Welt der großen Sprachmodelle (LLMs) hat sich gezeigt, dass Agenten erstaunliche Leistungen in erlernten Aufgaben erbringen können…

arXiv – cs.AI 05.03.2026 05:00

Forschung

HumanLM: Nutzer simulieren mit Zustandsausrichtung übertrifft Reaktionsnachahmung

In der Welt der großen Sprachmodelle (LLMs) gewinnt die Simulation echter Nutzerantworten immer mehr an Bedeutung. Dabei geht es nicht nur…

arXiv – cs.AI 05.03.2026 05:00

Forschung

Fairness in Empfehlungssystemen: Latente Präferenzen bereinigen, RL optimieren

Recommender‑Systeme, die auf Reinforcement Learning (RL) basieren, werden immer beliebter, weil sie die fortlaufende Interaktion zwischen N…

arXiv – cs.LG 05.03.2026 05:00

Forschung

Hybrid‑Lernmodell kombiniert Modell‑ und Reinforcement Learning für UAV‑Koordination

Ein neues Forschungsprojekt aus dem Bereich der autonomen Robotik hat einen hybriden Lernansatz vorgestellt, der die Stärken von modellbasi…

arXiv – cs.LG 05.03.2026 05:00

Forschung

Neuer Algorithmus löst Online-Reinforcement-Learning mit verzögerter Beobachtung

Ein neuer Beitrag auf arXiv liefert einen echten Durchbruch für Reinforcement‑Learning‑Systeme, die mit verzögerten Zustandsbeobachtungen a…

arXiv – cs.LG 05.03.2026 05:00

Forschung

RAPO: Erkundung von LLM-Agenten durch Retrieval‑gestützte Optimierung

Agentic Reinforcement Learning (Agentic RL) hat das Potenzial, große Sprachmodelle (LLM) zu leistungsstarken Agenten zu machen, die komplex…

arXiv – cs.AI 04.03.2026 05:00

Forschung

TikZilla: KI erzeugt hochwertige TikZ-Programme mit großen Daten und RL

Wissenschaftler nutzen immer häufiger große Sprachmodelle, um komplexe Grafiken aus Textbeschreibungen zu generieren. Dabei kommt TikZ – ei…

arXiv – cs.AI 04.03.2026 05:00

Forschung

Effiziente Q-Measure-Learning-Methodik für kontinuierliche Zustände in RL

In einer neuen Veröffentlichung auf arXiv wird ein innovativer Ansatz für Reinforcement Learning in Markov-Entscheidungsprozessen mit konti…

arXiv – cs.LG 05.03.2026 05:00

Forschung

LOGIGEN: Logikbasierte Generierung überprüfbarer Agentenaufgaben

Die rasante Weiterentwicklung von Large Language Models (LLMs) von reinen Befehlsbefolgern zu autonomen Agenten erfordert die Arbeit in kom…

arXiv – cs.AI 03.03.2026 05:00

Forschung

MO‑MIX: KI‑gestützte Mehrziel‑Mehragenten‑Entscheidungen revolutionieren

Deep Reinforcement Learning hat in den letzten Jahren komplexe Entscheidungsaufgaben erfolgreich gelöst. In vielen realen Szenarien stehen…

arXiv – cs.AI 03.03.2026 05:00

Forschung

Neue Methode entdeckt konservative Gleichgewichte in Offline-Spieltheorie

Forscher haben einen neuen Ansatz entwickelt, der es ermöglicht, stabile Strategien in komplexen Mehrspieler‑Spielen zu finden, ohne dass d…

arXiv – cs.AI 03.03.2026 05:00

Forschung

Reinforcement Learning garantiert probabilistische Stabilität mit endlich vielen Daten

Ein neues arXiv‑Veröffentlichungsdokument stellt einen innovativen Ansatz vor, der Reinforcement Learning (RL) mit klassischen Kontrolltheo…

arXiv – cs.LG 03.03.2026 05:00

Forschung

EMO‑R3: Reflexives RL für emotionale Logik in multimodalen Modellen

**Use the `DIR` command with the `/S` switch** The simplest way to get a list of *every* file in a directory tree from a batch file is to l…

arXiv – cs.AI 02.03.2026 05:00

Forschung

RL: Dynamikschwankungen mit Diffusion Schrödinger Bridge überbrücken

**Abstract** In dieser Kurzstudie wird das Verhalten der Katze *Whiskers* untersucht, die Laserpointer als Spielobjekt nutzt. Ziel ist es…

arXiv – cs.LG 02.03.2026 05:00

Forschung

MAGE: Mehrstufige Autoregressive Generierung revolutioniert Offline RL

In der Welt des Offline-Reinforcement-Learnings (RL) haben generative Modelle in den letzten Jahren stark an Bedeutung gewonnen, weil sie k…

arXiv – cs.LG 02.03.2026 05:00

Forschung

Portfolio-Reinforcement Learning: Neue Technik senkt Drawdown um 53 %

Eine aktuelle arXiv‑Studie (2602.24037v1) präsentiert einen bahnbrechenden Ansatz für die automatische Portfoliosteuerung, der die Herausfo…

arXiv – cs.AI 02.03.2026 05:00

Forschung

Offline-Reinforcement-Learning kann durch eine pessimistische Hilfspolitik deutlich effizienter werden. Beim Offline‑RL lernt ein Agent aus vorab gesammelten Daten, ohne dabei in Echtzeit zu handeln. Dieses Vorgehen vermeidet gefährliche oder ineffiziente Interaktionen, bringt jedoch ein Problem mit sich: Während des Lernens werden häufig Aktionen gewählt, die außerhalb des Trainingsdatensatzes liegen. Diese „Out‑of‑Distribution“-Aktionen führen zu Annäherungsfehlern, die sich akkumulieren und die

arXiv – cs.AI 02.03.2026 05:00

Forschung

Recycling-Fehler: RLVR-Exploration durch feinkörnige Off‑Policy‑Anleitung

Reinforcement Learning from Verifiable Rewards (RLVR) hat sich als leistungsstarkes Paradigma für die Verbesserung der komplexen Denkfähigk…

arXiv – cs.AI 02.03.2026 05:00

Forschung

Reinforcement Learning löst das min‑max Multiple Traveling Salesman Problem

Das Multiple Traveling Salesman Problem (mTSP) erweitert das klassische TSP um mehrere Routen, die alle Kunden genau einmal besuchen und am…

arXiv – cs.AI 02.03.2026 05:00

Forschung

MLLMs gegen visuelle Täuschungen: Adversarial Training stärkt Robustheit

Ein brandneues Forschungsdokument aus dem Bereich der multimodalen großen Sprachmodelle (MLLMs) zeigt, wie man die Wahrnehmungsstabilität d…

arXiv – cs.LG 27.02.2026 05:00

Forschung

Mit Autoren-Graphen neue Forschungsideen generieren – LLMs im Fokus

Große Sprachmodelle (LLMs) zeigen großes Potenzial für die Generierung wissenschaftlicher Ideen, doch die Ergebnisse fehlen oft an kontroll…

arXiv – cs.AI 27.02.2026 05:00

Forschung

FactGuard: KI-gestützte Video-Desinformation mit Reinforcement Learning

In einer bahnbrechenden Veröffentlichung auf arXiv präsentiert das Forschungsteam FactGuard, ein neues KI-Framework, das Video‑Desinformati…

arXiv – cs.AI 27.02.2026 05:00

Forschung

RL-Ansatz erkennt Maschinenfehler frühzeitig ohne Labels

Reinforcement Learning (RL) wird zunehmend als vielversprechende Methode zur Erkennung von Maschinenfehlern eingesetzt. In der aktuellen St…

arXiv – cs.LG 27.02.2026 05:00

Forschung

Metakognitive Entropie-Kalibrierung verbessert verifizierbares RL-Reasoning In den letzten Jahren haben große Rechenmodelle für komplexe Aufgaben, wie Mathematik und Frage‑Antwort‑Systeme, enorme Fortschritte erzielt. Diese Modelle werden meist mit Reinforcement Learning und verifizierbaren Belohnungen (RLVR) trainiert. Dabei wird jedoch fast ausschließlich ein binäres Korrektheitssignal verwendet, während die inhärente Unsicherheit des Modells weitgehend ignoriert wird. Dieses „Uncertainty‑Reward

arXiv – cs.AI 27.02.2026 05:00

Forschung

RLHFless: Serverless‑Computing für effizientes RLHF

Reinforcement Learning from Human Feedback (RLHF) wird zunehmend eingesetzt, um große Sprachmodelle (LLM) nach dem Training an menschliche…

arXiv – cs.AI 27.02.2026 05:00

Forschung

Neuer Ansatz: Alignment-Weighted DPO stärkt Sicherheit von Sprachmodellen

In den letzten Jahren haben Techniken wie Supervised Fine‑Tuning (SFT), Reinforcement Learning from Human Feedback (RLHF) und Direct Prefer…

arXiv – cs.AI 26.02.2026 05:00

Finde Modelle, Firmen und Themen

LLMs meistern Multi‑Turn-Interaktion dank neuer RL‑Methode

BandPO: Dynamische Grenzen für stabile LLM‑Reinforcement‑Learning‑Optimierung

Neues Lernverfahren optimiert DRAM-Equalizer mit Worst-Case-Garantie

BeamPERL: RL mit verifizierbaren Belohnungen stärkt physikalisches Denken in kompakteren LLMs

MAGE: Meta-Lern-Framework für LLM-Agenten – Strategische Erkundung & Ausnutzung

HumanLM: Nutzer simulieren mit Zustandsausrichtung übertrifft Reaktionsnachahmung

Fairness in Empfehlungssystemen: Latente Präferenzen bereinigen, RL optimieren

Hybrid‑Lernmodell kombiniert Modell‑ und Reinforcement Learning für UAV‑Koordination

Neuer Algorithmus löst Online-Reinforcement-Learning mit verzögerter Beobachtung

RAPO: Erkundung von LLM-Agenten durch Retrieval‑gestützte Optimierung

TikZilla: KI erzeugt hochwertige TikZ-Programme mit großen Daten und RL

Effiziente Q-Measure-Learning-Methodik für kontinuierliche Zustände in RL

LOGIGEN: Logikbasierte Generierung überprüfbarer Agentenaufgaben

MO‑MIX: KI‑gestützte Mehrziel‑Mehragenten‑Entscheidungen revolutionieren

Neue Methode entdeckt konservative Gleichgewichte in Offline-Spieltheorie

Reinforcement Learning garantiert probabilistische Stabilität mit endlich vielen Daten

EMO‑R3: Reflexives RL für emotionale Logik in multimodalen Modellen

RL: Dynamikschwankungen mit Diffusion Schrödinger Bridge überbrücken

MAGE: Mehrstufige Autoregressive Generierung revolutioniert Offline RL

Portfolio-Reinforcement Learning: Neue Technik senkt Drawdown um 53 %

Recycling-Fehler: RLVR-Exploration durch feinkörnige Off‑Policy‑Anleitung

Reinforcement Learning löst das min‑max Multiple Traveling Salesman Problem

MLLMs gegen visuelle Täuschungen: Adversarial Training stärkt Robustheit

Mit Autoren-Graphen neue Forschungsideen generieren – LLMs im Fokus

FactGuard: KI-gestützte Video-Desinformation mit Reinforcement Learning

RL-Ansatz erkennt Maschinenfehler frühzeitig ohne Labels

RLHFless: Serverless‑Computing für effizientes RLHF

Neuer Ansatz: Alignment-Weighted DPO stärkt Sicherheit von Sprachmodellen

🍪 Cookie-Einstellungen

Portfolio-Reinforcement Learning: Neue Technik senkt Drawdown um 53 %