Suche nach Belohnungen | meineki.news

WebFactory: Automatisierte Kompression von Sprachmodellwissen zu Web-Agenten

Die Entwicklung von GUI-Agenten steht bislang vor zwei großen Hindernissen: Entweder greifen sie auf unsichere, nicht reproduzierbare Live-…

arXiv – cs.AI 06.03.2026 05:00

Forschung

SkillNet: KI‑Fähigkeiten systematisch bündeln und verbessern

KI‑Agenten können heute flexibel Werkzeuge anrufen und komplexe Aufgaben erledigen, doch ihr langfristiger Fortschritt bleibt durch das Feh…

arXiv – cs.AI 06.03.2026 05:00

Forschung

BeamPERL: RL mit verifizierbaren Belohnungen stärkt physikalisches Denken in kompakteren LLMs

Ein neues Verfahren namens BeamPERL nutzt Reinforcement Learning mit harten, verifizierbaren Belohnungen, um ein 1,5‑Billionen‑Parameter‑Mo…

arXiv – cs.AI 05.03.2026 05:00

Forschung

SEA-TS: Selbstlernender Agent revolutioniert Zeitreihenprognosen

Ein neues Forschungsprojekt namens SEA-TS (Self‑Evolving Agent for Time Series Algorithms) hat die Art und Weise, wie Zeitreihenprognosen e…

arXiv – cs.AI 06.03.2026 05:00

Forschung

MASS: LLMs adaptieren selbstständig mit synthetischen Trainingsdaten

Große Sprachmodelle (LLMs) sind starke Allzweck-Reasoner, die in vielen unterschiedlichen Domänen und Aufgaben eingesetzt werden. Damit sie…

arXiv – cs.LG 05.03.2026 05:00

Forschung

TikZilla: KI erzeugt hochwertige TikZ-Programme mit großen Daten und RL

Wissenschaftler nutzen immer häufiger große Sprachmodelle, um komplexe Grafiken aus Textbeschreibungen zu generieren. Dabei kommt TikZ – ei…

arXiv – cs.AI 04.03.2026 05:00

Forschung

Rubrikbasierter Kritiker lernt aus seltenen, verrauschten Echtzeitdaten

In der Forschung zu programmierfähigen Agenten wird häufig die Fähigkeit gemessen, Aufgaben autonom zu lösen, indem man auf überprüfbare Be…

arXiv – cs.AI 05.03.2026 05:00

Forschung

Effiziente Q-Measure-Learning-Methodik für kontinuierliche Zustände in RL

In einer neuen Veröffentlichung auf arXiv wird ein innovativer Ansatz für Reinforcement Learning in Markov-Entscheidungsprozessen mit konti…

arXiv – cs.LG 05.03.2026 05:00

Forschung

Ohne Belohnungen: Beobachter lernen optimale Politik aus Aktionen

In der neuen Studie zum Inverse Contextual Bandit (ICB) wird untersucht, wie ein Beobachter ohne Zugriff auf Belohnungen die zugrunde liege…

arXiv – cs.LG 05.03.2026 05:00

Forschung

DIVA‑GRPO: Mehrschichtige Logik mit anpassbarer Schwierigkeitsstufe

Reinforcement‑Learning‑Modelle, die auf Group Relative Policy Optimization (GRPO) setzen, haben sich als effektive Methode etabliert, um di…

arXiv – cs.AI 03.03.2026 05:00

Forschung

LOGIGEN: Logikbasierte Generierung überprüfbarer Agentenaufgaben

Die rasante Weiterentwicklung von Large Language Models (LLMs) von reinen Befehlsbefolgern zu autonomen Agenten erfordert die Arbeit in kom…

arXiv – cs.AI 03.03.2026 05:00

Forschung

DeepResearch-9K: Das anspruchsvolle Benchmark-Datensatz für Deep-Research-Agenten

DeepResearch-9K ist ein umfangreiches, herausforderndes Datenset, das speziell für Deep‑Research‑Agenten entwickelt wurde. Es umfasst 9 000…

arXiv – cs.AI 03.03.2026 05:00

Forschung

Rooted Prefix Balance & Submodular Replay verbessern GFlowNet-Training

Generative Flow Networks (GFlowNets) ermöglichen es, große Sprachmodelle so zu feintunen, dass sie belohnungsproportionale Posteriorverteil…

arXiv – cs.LG 03.03.2026 05:00

Forschung

InfoPO: Optimierung von Agenten durch informationsbasierte Interaktion

In der Praxis liefern Nutzer*innen von LLM‑Agenten häufig unvollständige Anfragen. Damit die Agenten dennoch korrekte Entscheidungen treffe…

arXiv – cs.AI 03.03.2026 05:00

Forschung

Sicheres Code‑Generieren lernen: Token‑Level Belohnungen im Fokus

Neues Forschungspapier auf arXiv zeigt, wie große Sprachmodelle (LLMs) ihre Code‑Generierung sicherer machen können. Trotz beeindruckender…

arXiv – cs.AI 02.03.2026 05:00

Forschung

MAGE: Mehrstufige Autoregressive Generierung revolutioniert Offline RL

In der Welt des Offline-Reinforcement-Learnings (RL) haben generative Modelle in den letzten Jahren stark an Bedeutung gewonnen, weil sie k…

arXiv – cs.LG 02.03.2026 05:00

Forschung

Portfolio-Reinforcement Learning: Neue Technik senkt Drawdown um 53 %

Eine aktuelle arXiv‑Studie (2602.24037v1) präsentiert einen bahnbrechenden Ansatz für die automatische Portfoliosteuerung, der die Herausfo…

arXiv – cs.AI 02.03.2026 05:00

Forschung

Recycling-Fehler: RLVR-Exploration durch feinkörnige Off‑Policy‑Anleitung

Reinforcement Learning from Verifiable Rewards (RLVR) hat sich als leistungsstarkes Paradigma für die Verbesserung der komplexen Denkfähigk…

arXiv – cs.AI 02.03.2026 05:00

Forschung

RL-Ansatz erkennt Maschinenfehler frühzeitig ohne Labels

Reinforcement Learning (RL) wird zunehmend als vielversprechende Methode zur Erkennung von Maschinenfehlern eingesetzt. In der aktuellen St…

arXiv – cs.LG 27.02.2026 05:00

Forschung

Neues Post-Training-Verfahren verbessert Wohnungspläne dank Space Syntax

In der Architekturforschung haben generative Modelle für Wohnungspläne lange Zeit große Datensätze optimiert, ohne dabei zentrale architekt…

arXiv – cs.LG 27.02.2026 05:00

Forschung

<p>Metakognitive Entropie-Kalibrierung verbessert verifizierbares RL-Reasoning</p> <p>In den letzten Jahren haben große Rechenmodelle für komplexe Aufgaben, wie Mathematik und Frage‑Antwort‑Systeme, enorme Fortschritte erzielt. Diese Modelle werden meist mit Reinforcement Learning und verifizierbaren Belohnungen (RLVR) trainiert. Dabei wird jedoch fast ausschließlich ein binäres Korrektheitssignal verwendet, während die inhärente Unsicherheit des Modells weitgehend ignoriert wird. Dieses „Uncertainty‑Reward

arXiv – cs.AI 27.02.2026 05:00

Produkt

Reinforcement Fine‑Tuning für Amazon Nova: KI durch Feedback verbessern

Amazon Nova setzt mit Verstärkendem Feintuning (RFT) neue Maßstäbe in der KI-Anpassung. Im Gegensatz zum klassischen überwachten Lernen ler…

AWS – Machine Learning Blog 26.02.2026 17:48

Forschung

Federated Learning: Bewertung von Zuverlässigkeit, Resilienz und Fairness

Federated Learning bietet ein datenschutzfreundliches Modell für gemeinsames Lernen, doch der Erfolg hängt entscheidend von den Beiträgen d…

arXiv – cs.LG 27.02.2026 05:00

Forschung

Selbstvertrauen in RL führt zu Fehlern – asymmetrische Strafen helfen

In der Welt der großen Sprachmodelle (LLMs) hat sich Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) als führendes Verfahren…

arXiv – cs.AI 26.02.2026 05:00

Forschung

Kostenbewusste Agenten‑Routing‑Strategie optimiert LLM‑Workflows

Mit der Weiterentwicklung großer Sprachmodelle (LLMs) zu autonomen Agenten, die komplexe Aufgaben in mehreren Schritten ausführen, wird die…

arXiv – cs.AI 26.02.2026 05:00

Forschung

Duel‑Evolve: Optimierung von LLM‑Ausgaben ohne externe Belohnungen

Ein neues Verfahren namens Duel‑Evolve nutzt die eigenen Präferenzen eines großen Sprachmodells, um seine Ausgaben zu optimieren, ohne auf…

arXiv – cs.LG 26.02.2026 05:00

Forschung

Kontrollierbare Exploration in Hybrid-Policy RLVR für multimodale Logik

Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) hat sich als zentrales Lernparadigma etabliert, um die Denkfähigkeiten multim…

arXiv – cs.LG 25.02.2026 05:00

Forschung

Selbstdistillation ohne Labels: Konsensgating verbessert Dokumentenloses QA

In einer neuen Studie von Forschern aus dem Bereich der künstlichen Intelligenz wird gezeigt, wie ein Modell ohne externe Labels oder verif…

arXiv – cs.LG 25.02.2026 05:00

Forschung

OptiRepair: KI-Agenten beheben Lieferkettenmodelle zuverlässig

OptiRepair ist eine neu entwickelte KI-gestützte Methode, die die Diagnose und Reparatur von Lieferkettenoptimierungsmodellen automatisiert…

arXiv – cs.AI 24.02.2026 05:00

Forschung

Belohnungsdesign aus Sprache: KI-Agenten an menschliche Vorgaben ausrichten

In der KI‑Entwicklung geht es nicht nur darum, Aufgaben zu lösen, sondern auch, wie sie gelöst werden. Damit künstliche Intelligenzen veran…

arXiv – cs.AI 24.02.2026 05:00

Finde Modelle, Firmen und Themen

WebFactory: Automatisierte Kompression von Sprachmodellwissen zu Web-Agenten

SkillNet: KI‑Fähigkeiten systematisch bündeln und verbessern

BeamPERL: RL mit verifizierbaren Belohnungen stärkt physikalisches Denken in kompakteren LLMs

SEA-TS: Selbstlernender Agent revolutioniert Zeitreihenprognosen

MASS: LLMs adaptieren selbstständig mit synthetischen Trainingsdaten

TikZilla: KI erzeugt hochwertige TikZ-Programme mit großen Daten und RL

Rubrikbasierter Kritiker lernt aus seltenen, verrauschten Echtzeitdaten

Effiziente Q-Measure-Learning-Methodik für kontinuierliche Zustände in RL

Ohne Belohnungen: Beobachter lernen optimale Politik aus Aktionen

DIVA‑GRPO: Mehrschichtige Logik mit anpassbarer Schwierigkeitsstufe

LOGIGEN: Logikbasierte Generierung überprüfbarer Agentenaufgaben

DeepResearch-9K: Das anspruchsvolle Benchmark-Datensatz für Deep-Research-Agenten

Rooted Prefix Balance & Submodular Replay verbessern GFlowNet-Training

InfoPO: Optimierung von Agenten durch informationsbasierte Interaktion

Sicheres Code‑Generieren lernen: Token‑Level Belohnungen im Fokus

MAGE: Mehrstufige Autoregressive Generierung revolutioniert Offline RL

Portfolio-Reinforcement Learning: Neue Technik senkt Drawdown um 53 %

Recycling-Fehler: RLVR-Exploration durch feinkörnige Off‑Policy‑Anleitung

RL-Ansatz erkennt Maschinenfehler frühzeitig ohne Labels

Neues Post-Training-Verfahren verbessert Wohnungspläne dank Space Syntax

Reinforcement Fine‑Tuning für Amazon Nova: KI durch Feedback verbessern

Federated Learning: Bewertung von Zuverlässigkeit, Resilienz und Fairness

Selbstvertrauen in RL führt zu Fehlern – asymmetrische Strafen helfen

Kostenbewusste Agenten‑Routing‑Strategie optimiert LLM‑Workflows

Duel‑Evolve: Optimierung von LLM‑Ausgaben ohne externe Belohnungen

Kontrollierbare Exploration in Hybrid-Policy RLVR für multimodale Logik

Selbstdistillation ohne Labels: Konsensgating verbessert Dokumentenloses QA

OptiRepair: KI-Agenten beheben Lieferkettenmodelle zuverlässig

Belohnungsdesign aus Sprache: KI-Agenten an menschliche Vorgaben ausrichten

🍪 Cookie-Einstellungen

Portfolio-Reinforcement Learning: Neue Technik senkt Drawdown um 53 %