Suche nach Policy Optimization

VISA: Präzise Werteanpassung von LLMs ohne Qualitätsverlust

Ein neues Verfahren namens VISA (Value Injection via Shielded Adaptation) verspricht, Large Language Models (LLMs) genauer an menschliche W…

arXiv – cs.AI 06.03.2026 05:00

Forschung

Diffusionspolitik: Bedingte proximal Policy Optimization

Reinforcement‑Learning‑Forscher haben kürzlich gezeigt, dass Diffusionsmodelle ein vielversprechendes Mittel sind, um multimodale Handlungs…

arXiv – cs.LG 06.03.2026 05:00

Forschung

EvoTool: Selbstoptimierung von Tool‑Nutzungsstrategien in LLM-Agenten

LLM‑basierte Agenten brauchen effektive Tool‑Nutzungsstrategien, um komplexe Aufgaben zu lösen. Die Optimierung dieser Strategien ist jedoc…

arXiv – cs.AI 06.03.2026 05:00

Forschung

BandPO: Dynamische Grenzen für stabile LLM‑Reinforcement‑Learning‑Optimierung

In der Welt der großen Sprachmodelle (LLMs) ist die Stabilität beim Reinforcement Learning entscheidend. Traditionell sorgt das Clipping‑Ve…

arXiv – cs.LG 06.03.2026 05:00

Forschung

PPO bleibt robust: Sequenzmodelle bekämpfen Sensorfehler in RL-Systemen

Reinforcement‑Learning‑Systeme müssen in der Praxis mit Veränderungen in ihren Beobachtungsdaten umgehen können. Die meisten gängigen Polic…

arXiv – cs.LG 06.03.2026 05:00

Forschung

IntPro: Intelligenter Proxy-Agent für kontextabhängiges Intent-Understanding

Large Language Models (LLMs) sind heute unverzichtbar für die Zusammenarbeit zwischen Mensch und KI. Ein entscheidender Schritt dabei ist d…

arXiv – cs.AI 05.03.2026 05:00

Forschung

RAPO: Erkundung von LLM-Agenten durch Retrieval‑gestützte Optimierung

Agentic Reinforcement Learning (Agentic RL) hat das Potenzial, große Sprachmodelle (LLM) zu leistungsstarken Agenten zu machen, die komplex…

arXiv – cs.AI 04.03.2026 05:00

Forschung

<h1>LLM-gestützte Schiffswegvorhersage: ShipTraj‑R1 setzt neue Maßstäbe</h1> <p>Durch die jüngsten Fortschritte im Bereich der Verstärkungsoptimierung von Sprachmodellen hat sich die Fähigkeit großer Sprachmodelle (LLMs) zur logischen Problemlösung deutlich verbessert. Besonders die Methode des Group Relative Policy Optimization (GRPO) hat in verschiedenen Anwendungsfeldern starke Ergebnisse erzielt.</p> <p>Die Anwendung von LLMs auf die Vorhersage von Schiffsrouten blieb bislang weitgehend unerforscht. In

arXiv – cs.AI 04.03.2026 05:00

Forschung

Neuer Algorithmus ATPO: Adaptive Tree Policy Optimierung steigert medizinische Dialoge

Ein neuer Ansatz namens Adaptive Tree Policy Optimization (ATPO) verspricht, die Qualität von medizinischen Dialogen deutlich zu verbessern…

arXiv – cs.LG 04.03.2026 05:00

Forschung

<h1>LLMs optimieren Hochfrequente Entscheidungen: Normalisierte Belohnungsstrategie</h1> <p>Large Language Models (LLMs) sind das Rückgrat moderner Agenten für sequenzielle Entscheidungen, doch ihre Leistungsfähigkeit lässt bei hochfrequenten Aufgaben nach. In der Regel konzentriert sich die Forschung auf diskrete, eingebettete Szenarien mit seltenen, stark semantisch unterschiedlichen Zuständen – etwa bei der Hausplanung. Solche Ansätze zeigen bei Aufgaben, bei denen sich numerische Zustände ständig, aber

arXiv – cs.AI 04.03.2026 05:00

Forschung

DIVA‑GRPO: Mehrschichtige Logik mit anpassbarer Schwierigkeitsstufe

Reinforcement‑Learning‑Modelle, die auf Group Relative Policy Optimization (GRPO) setzen, haben sich als effektive Methode etabliert, um di…

arXiv – cs.AI 03.03.2026 05:00

Forschung

OptiAgent: KI-gestütztes, physikbasiertes System für automatisiertes Optikdesign

OptiAgent ist ein neu entwickeltes, physikgetriebenes Agenten-Framework, das die Automatisierung des Optikdesigns revolutioniert. Durch die…

arXiv – cs.LG 02.03.2026 05:00

Forschung

K²-Agent: Hierarchischer Lernagent für mobile Geräte mit selbstentwickeltem Wissen

Ein neuer Ansatz namens K²-Agent verspricht, die Grenzen herkömmlicher mobile Geräte‑Controller zu sprengen. Durch die Trennung von deklara…

arXiv – cs.AI 03.03.2026 05:00

Forschung

InfoPO: Optimierung von Agenten durch informationsbasierte Interaktion

In der Praxis liefern Nutzer*innen von LLM‑Agenten häufig unvollständige Anfragen. Damit die Agenten dennoch korrekte Entscheidungen treffe…

arXiv – cs.AI 03.03.2026 05:00

Forschung

MemPO: 73 % weniger Token, 26 % mehr F1 bei Langzeit-Agenten

Langzeit-Agenten, die über viele Interaktionsschritte hinweg lernen, kämpfen häufig mit einer stetig wachsenden Kontextgröße. Diese Expansi…

arXiv – cs.AI 03.03.2026 05:00

Forschung

RUMAD: Mit Verstärkungslernen die Effizienz von Multi-Agenten‑Debatten steigern

In der Welt der Multi-Agenten‑Debatten (MAD) wird die kollektive Intelligenz genutzt, um komplexe Probleme zu lösen. Doch bisherige Ansätze…

arXiv – cs.AI 02.03.2026 05:00

Forschung

Neues Pretraining für Actor-Critic: 86 % weniger Interaktionen bei Robotik

Ein neues Pretraining-Verfahren für Actor‑Critic‑Algorithmen verspricht, die Lernzeit von Robotern drastisch zu verkürzen. Die Autoren stel…

arXiv – cs.LG 02.03.2026 05:00

Forschung

Offline RL: Neue Theorie für parametrische Policies in großen Aktionsräumen

In einer aktuellen Veröffentlichung auf arXiv wird ein bedeutender Fortschritt im Bereich des Offline‑Reinforcement‑Learning (RL) vorgestel…

arXiv – cs.LG 02.03.2026 05:00

Forschung

UpSkill steigert LLMs: Treffer bei mehreren Versuchen dank Mutual Information

Die neue Methode UpSkill, entwickelt von Forschern auf arXiv, nutzt Mutual Information Skill Learning (MISL), um die Trefferquote mehrerer…

arXiv – cs.LG 27.02.2026 05:00

Forschung

Verbesserte Anspruchsprüfung durch gezielte Decomposition und Alignment

Eine neue Methode zur Überprüfung komplexer Behauptungen kombiniert Reinforcement Learning mit gezieltem Alignment, um die Qualität der Unt…

arXiv – cs.AI 26.02.2026 05:00

Forschung

Kostenbewusste Agenten‑Routing‑Strategie optimiert LLM‑Workflows

Mit der Weiterentwicklung großer Sprachmodelle (LLMs) zu autonomen Agenten, die komplexe Aufgaben in mehreren Schritten ausführen, wird die…

arXiv – cs.AI 26.02.2026 05:00

Forschung

GOPO: Neue Optimierungsmethode für Sprachmodelle aus Hilbert‑Raum

Die neueste Veröffentlichung von Forschern auf arXiv präsentiert GOPO – Group Orthogonalized Policy Optimization – einen völlig neuen Ansat…

arXiv – cs.AI 26.02.2026 05:00

Forschung

BAPO: Off‑Policy RL steigert Effizienz von LLMs um 12,5 %

Ein neues Verfahren namens Batch Adaptation Policy Optimization (BAPO) verspricht, die Effizienz von großen Sprachmodellen nach dem Trainin…

arXiv – cs.AI 25.02.2026 05:00

Produkt

CodeFu-7B mit veRL und Ray auf Amazon SageMaker trainieren

In diesem Beitrag zeigen wir, wie man das 7‑Billionen‑Parameter‑Modell CodeFu‑7B – speziell für Wettbewerbsprogrammierung – mit Group Relat…

AWS – Machine Learning Blog 24.02.2026 15:46

Forschung

Optimale Mehrdebris-Missionen in LEO: RL mit Co-Elliptischen Transfers & Betankung

In der aktiven Beseitigung von Weltraummüll in der niedrigen Erdumlaufbahn (LEO) stellt die Koordination mehrerer Ziele eine enorme logisti…

arXiv – cs.LG 23.02.2026 05:00

Forschung

MePoly: Maximale Entropie mit Polynom-Policy-Optimierung

Ein neues Verfahren namens MePoly eröffnet einen vielversprechenden Ansatz für die Optimierung von Policies in der stochastischen Regelung…

arXiv – cs.LG 23.02.2026 05:00

Forschung

WS-GRPO: Gruppen-Relative Policy-Optimierung für effizientes Rollout

Die neu entwickelte Methode WS‑GRPO (Weakly‑Supervised Group‑Relative Policy Optimization) adressiert ein zentrales Problem bei der Anwendu…

arXiv – cs.LG 20.02.2026 05:00

Forschung

EnterpriseGym Corecraft: KI-Agenten lernen in realitätsnahen RL-Umgebungen

Surge AI hat mit der Einführung von Corecraft die erste Umgebung der EnterpriseGym-Suite vorgestellt. Corecraft simuliert ein voll funktion…

arXiv – cs.AI 19.02.2026 05:00

Forschung

IntelliAsk: KI-gestützte Fragenoptimierung steigert Review-Qualität

In der Peer‑Review‑Welt sind tiefgründige, evidenzbasierte Fragen entscheidend. Bisher erzeugen jedoch die meisten großen Sprachmodelle (LL…

arXiv – cs.AI 19.02.2026 05:00

Forschung

Neues MLLM-Framework ermöglicht autonome GUI-Navigation ohne hohe Datenkosten

Durch die jüngsten Fortschritte multimodaler Large Language Models (MLLMs) haben autonome Agenten für grafische Benutzeroberflächen (GUI) e…

arXiv – cs.AI 17.02.2026 05:00

Finde Modelle, Firmen und Themen

VISA: Präzise Werteanpassung von LLMs ohne Qualitätsverlust

Diffusionspolitik: Bedingte proximal Policy Optimization

EvoTool: Selbstoptimierung von Tool‑Nutzungsstrategien in LLM-Agenten

BandPO: Dynamische Grenzen für stabile LLM‑Reinforcement‑Learning‑Optimierung

PPO bleibt robust: Sequenzmodelle bekämpfen Sensorfehler in RL-Systemen

IntPro: Intelligenter Proxy-Agent für kontextabhängiges Intent-Understanding

RAPO: Erkundung von LLM-Agenten durch Retrieval‑gestützte Optimierung

Neuer Algorithmus ATPO: Adaptive Tree Policy Optimierung steigert medizinische Dialoge

DIVA‑GRPO: Mehrschichtige Logik mit anpassbarer Schwierigkeitsstufe

OptiAgent: KI-gestütztes, physikbasiertes System für automatisiertes Optikdesign

K²-Agent: Hierarchischer Lernagent für mobile Geräte mit selbstentwickeltem Wissen

InfoPO: Optimierung von Agenten durch informationsbasierte Interaktion

MemPO: 73 % weniger Token, 26 % mehr F1 bei Langzeit-Agenten

RUMAD: Mit Verstärkungslernen die Effizienz von Multi-Agenten‑Debatten steigern

Neues Pretraining für Actor-Critic: 86 % weniger Interaktionen bei Robotik

Offline RL: Neue Theorie für parametrische Policies in großen Aktionsräumen

UpSkill steigert LLMs: Treffer bei mehreren Versuchen dank Mutual Information

Verbesserte Anspruchsprüfung durch gezielte Decomposition und Alignment

Kostenbewusste Agenten‑Routing‑Strategie optimiert LLM‑Workflows

GOPO: Neue Optimierungsmethode für Sprachmodelle aus Hilbert‑Raum

BAPO: Off‑Policy RL steigert Effizienz von LLMs um 12,5 %

CodeFu-7B mit veRL und Ray auf Amazon SageMaker trainieren

Optimale Mehrdebris-Missionen in LEO: RL mit Co-Elliptischen Transfers & Betankung

MePoly: Maximale Entropie mit Polynom-Policy-Optimierung

WS-GRPO: Gruppen-Relative Policy-Optimierung für effizientes Rollout

EnterpriseGym Corecraft: KI-Agenten lernen in realitätsnahen RL-Umgebungen

IntelliAsk: KI-gestützte Fragenoptimierung steigert Review-Qualität

Neues MLLM-Framework ermöglicht autonome GUI-Navigation ohne hohe Datenkosten

🍪 Cookie-Einstellungen

MemPO: 73 % weniger Token, 26 % mehr F1 bei Langzeit-Agenten

Neues Pretraining für Actor-Critic: 86 % weniger Interaktionen bei Robotik

BAPO: Off‑Policy RL steigert Effizienz von LLMs um 12,5 %