Suche nach Policy | meineki.news

VISA: Präzise Werteanpassung von LLMs ohne Qualitätsverlust

Ein neues Verfahren namens VISA (Value Injection via Shielded Adaptation) verspricht, Large Language Models (LLMs) genauer an menschliche W…

arXiv – cs.AI 06.03.2026 05:00

Forschung

Diffusionspolitik: Bedingte proximal Policy Optimization

Reinforcement‑Learning‑Forscher haben kürzlich gezeigt, dass Diffusionsmodelle ein vielversprechendes Mittel sind, um multimodale Handlungs…

arXiv – cs.LG 06.03.2026 05:00

Forschung

EvoTool: Selbstoptimierung von Tool‑Nutzungsstrategien in LLM-Agenten

LLM‑basierte Agenten brauchen effektive Tool‑Nutzungsstrategien, um komplexe Aufgaben zu lösen. Die Optimierung dieser Strategien ist jedoc…

arXiv – cs.AI 06.03.2026 05:00

Forschung

BandPO: Dynamische Grenzen für stabile LLM‑Reinforcement‑Learning‑Optimierung

In der Welt der großen Sprachmodelle (LLMs) ist die Stabilität beim Reinforcement Learning entscheidend. Traditionell sorgt das Clipping‑Ve…

arXiv – cs.LG 06.03.2026 05:00

Forschung

PPO bleibt robust: Sequenzmodelle bekämpfen Sensorfehler in RL-Systemen

Reinforcement‑Learning‑Systeme müssen in der Praxis mit Veränderungen in ihren Beobachtungsdaten umgehen können. Die meisten gängigen Polic…

arXiv – cs.LG 06.03.2026 05:00

Forschung

HiMAP-Travel: Hierarchische Multi-Agentenplanung revolutioniert Langzeitreisen

In der Welt der Reiseplanung stoßen herkömmliche LLM‑Agenten an ihre Grenzen, wenn sie langfristige Reiseziele mit strengen Vorgaben wie Bu…

arXiv – cs.AI 06.03.2026 05:00

Forschung

IntPro: Intelligenter Proxy-Agent für kontextabhängiges Intent-Understanding

Large Language Models (LLMs) sind heute unverzichtbar für die Zusammenarbeit zwischen Mensch und KI. Ein entscheidender Schritt dabei ist d…

arXiv – cs.AI 05.03.2026 05:00

Forschung

Fairness in Empfehlungssystemen: Latente Präferenzen bereinigen, RL optimieren

Recommender‑Systeme, die auf Reinforcement Learning (RL) basieren, werden immer beliebter, weil sie die fortlaufende Interaktion zwischen N…

arXiv – cs.LG 05.03.2026 05:00

Forschung

RAPO: Erkundung von LLM-Agenten durch Retrieval‑gestützte Optimierung

Agentic Reinforcement Learning (Agentic RL) hat das Potenzial, große Sprachmodelle (LLM) zu leistungsstarken Agenten zu machen, die komplex…

arXiv – cs.AI 04.03.2026 05:00

Forschung

<h1>LLM-gestützte Schiffswegvorhersage: ShipTraj‑R1 setzt neue Maßstäbe</h1> <p>Durch die jüngsten Fortschritte im Bereich der Verstärkungsoptimierung von Sprachmodellen hat sich die Fähigkeit großer Sprachmodelle (LLMs) zur logischen Problemlösung deutlich verbessert. Besonders die Methode des Group Relative Policy Optimization (GRPO) hat in verschiedenen Anwendungsfeldern starke Ergebnisse erzielt.</p> <p>Die Anwendung von LLMs auf die Vorhersage von Schiffsrouten blieb bislang weitgehend unerforscht. In

arXiv – cs.AI 04.03.2026 05:00

Forschung

Neuer Algorithmus ATPO: Adaptive Tree Policy Optimierung steigert medizinische Dialoge

Ein neuer Ansatz namens Adaptive Tree Policy Optimization (ATPO) verspricht, die Qualität von medizinischen Dialogen deutlich zu verbessern…

arXiv – cs.LG 04.03.2026 05:00

Aktuell

KI-Agenten setzen auf Bitcoin – neue Finanzarchitektur im Aufbruch

KI-Agenten bevorzugen Bitcoin als digitales Vermögenslager, was Finanzverantwortliche dazu zwingt, ihre Systeme für autonome Maschinen neu…

AI News (TechForge) 04.03.2026 10:52

Forschung

<h1>LLMs optimieren Hochfrequente Entscheidungen: Normalisierte Belohnungsstrategie</h1> <p>Large Language Models (LLMs) sind das Rückgrat moderner Agenten für sequenzielle Entscheidungen, doch ihre Leistungsfähigkeit lässt bei hochfrequenten Aufgaben nach. In der Regel konzentriert sich die Forschung auf diskrete, eingebettete Szenarien mit seltenen, stark semantisch unterschiedlichen Zuständen – etwa bei der Hausplanung. Solche Ansätze zeigen bei Aufgaben, bei denen sich numerische Zustände ständig, aber

arXiv – cs.AI 04.03.2026 05:00

Forschung

DIVA‑GRPO: Mehrschichtige Logik mit anpassbarer Schwierigkeitsstufe

Reinforcement‑Learning‑Modelle, die auf Group Relative Policy Optimization (GRPO) setzen, haben sich als effektive Methode etabliert, um di…

arXiv – cs.AI 03.03.2026 05:00

Forschung

Neural Paging: LLMs mit externem Speicher erreichen universelle Rechenkraft

Wissenschaftler haben gezeigt, dass große Sprachmodelle (LLMs), die mit externem Lese‑/Schreib‑Speicher kombiniert werden, ein rechnerisch…

arXiv – cs.LG 04.03.2026 05:00

Forschung

LOGIGEN: Logikbasierte Generierung überprüfbarer Agentenaufgaben

Die rasante Weiterentwicklung von Large Language Models (LLMs) von reinen Befehlsbefolgern zu autonomen Agenten erfordert die Arbeit in kom…

arXiv – cs.AI 03.03.2026 05:00

Forschung

HiMAC: Hierarchisches Lernen für LLM-Agenten in Langzeitaufgaben

In einer neuen Veröffentlichung auf arXiv präsentiert HiMAC ein innovatives, hierarchisches Lernframework, das Large Language Model (LLM)-A…

arXiv – cs.AI 03.03.2026 05:00

Forschung

Reward-Modelle ohne menschliche Hilfe: Skalierung durch unüberwachtes Lernen

Forscher haben einen neuen Ansatz vorgestellt, mit dem Belohnungsmodelle ohne menschliche Annotationen skaliert werden können. Durch das Tr…

arXiv – cs.LG 04.03.2026 05:00

Forschung

Bridging Policy and Real-World Dynamics: LLM-Augmented Rebalancing for Shared Micromobility Systems

Die Nutzung von E‑Scootern und Fahrrädern hat sich zu einem unverzichtbaren Bestandteil des urbanen Verkehrs entwickelt. Damit diese Dienst…

arXiv – cs.LG 03.03.2026 05:00

Forschung

LiTS: Modulares Python-Framework für LLM-Tree-Search

LiTS ist ein neues, modular aufgebautes Python-Framework, das große Sprachmodelle (LLMs) durch Tree-Search zum logischen Denken anleitet. D…

arXiv – cs.AI 03.03.2026 05:00

Forschung

Neue Methode entdeckt konservative Gleichgewichte in Offline-Spieltheorie

Forscher haben einen neuen Ansatz entwickelt, der es ermöglicht, stabile Strategien in komplexen Mehrspieler‑Spielen zu finden, ohne dass d…

arXiv – cs.AI 03.03.2026 05:00

Forschung

Auton Agentic AI: Neues Framework für autonome KI-Systeme

Die Forschung im Bereich Künstliche Intelligenz erlebt einen entscheidenden Wandel: Von der reinen Generierung von Texten und Bildern hin z…

arXiv – cs.AI 02.03.2026 05:00

Forschung

Reinforcement Learning garantiert probabilistische Stabilität mit endlich vielen Daten

Ein neues arXiv‑Veröffentlichungsdokument stellt einen innovativen Ansatz vor, der Reinforcement Learning (RL) mit klassischen Kontrolltheo…

arXiv – cs.LG 03.03.2026 05:00

Forschung

OptiAgent: KI-gestütztes, physikbasiertes System für automatisiertes Optikdesign

OptiAgent ist ein neu entwickeltes, physikgetriebenes Agenten-Framework, das die Automatisierung des Optikdesigns revolutioniert. Durch die…

arXiv – cs.LG 02.03.2026 05:00

Forschung

K²-Agent: Hierarchischer Lernagent für mobile Geräte mit selbstentwickeltem Wissen

Ein neuer Ansatz namens K²-Agent verspricht, die Grenzen herkömmlicher mobile Geräte‑Controller zu sprengen. Durch die Trennung von deklara…

arXiv – cs.AI 03.03.2026 05:00

Forschung

InfoPO: Optimierung von Agenten durch informationsbasierte Interaktion

In der Praxis liefern Nutzer*innen von LLM‑Agenten häufig unvollständige Anfragen. Damit die Agenten dennoch korrekte Entscheidungen treffe…

arXiv – cs.AI 03.03.2026 05:00

Forschung

MemPO: 73 % weniger Token, 26 % mehr F1 bei Langzeit-Agenten

Langzeit-Agenten, die über viele Interaktionsschritte hinweg lernen, kämpfen häufig mit einer stetig wachsenden Kontextgröße. Diese Expansi…

arXiv – cs.AI 03.03.2026 05:00

Forschung

<p>Offline-Reinforcement-Learning kann durch eine pessimistische Hilfspolitik deutlich effizienter werden.</p> <p>Beim Offline‑RL lernt ein Agent aus vorab gesammelten Daten, ohne dabei in Echtzeit zu handeln. Dieses Vorgehen vermeidet gefährliche oder ineffiziente Interaktionen, bringt jedoch ein Problem mit sich: Während des Lernens werden häufig Aktionen gewählt, die außerhalb des Trainingsdatensatzes liegen. Diese „Out‑of‑Distribution“-Aktionen führen zu Annäherungsfehlern, die sich akkumulieren und die

arXiv – cs.AI 02.03.2026 05:00

Forschung

RUMAD: Mit Verstärkungslernen die Effizienz von Multi-Agenten‑Debatten steigern

In der Welt der Multi-Agenten‑Debatten (MAD) wird die kollektive Intelligenz genutzt, um komplexe Probleme zu lösen. Doch bisherige Ansätze…

arXiv – cs.AI 02.03.2026 05:00

Forschung

Recycling-Fehler: RLVR-Exploration durch feinkörnige Off‑Policy‑Anleitung

Reinforcement Learning from Verifiable Rewards (RLVR) hat sich als leistungsstarkes Paradigma für die Verbesserung der komplexen Denkfähigk…

arXiv – cs.AI 02.03.2026 05:00

Finde Modelle, Firmen und Themen

VISA: Präzise Werteanpassung von LLMs ohne Qualitätsverlust

Diffusionspolitik: Bedingte proximal Policy Optimization

EvoTool: Selbstoptimierung von Tool‑Nutzungsstrategien in LLM-Agenten

BandPO: Dynamische Grenzen für stabile LLM‑Reinforcement‑Learning‑Optimierung

PPO bleibt robust: Sequenzmodelle bekämpfen Sensorfehler in RL-Systemen

HiMAP-Travel: Hierarchische Multi-Agentenplanung revolutioniert Langzeitreisen

IntPro: Intelligenter Proxy-Agent für kontextabhängiges Intent-Understanding

Fairness in Empfehlungssystemen: Latente Präferenzen bereinigen, RL optimieren

RAPO: Erkundung von LLM-Agenten durch Retrieval‑gestützte Optimierung

Neuer Algorithmus ATPO: Adaptive Tree Policy Optimierung steigert medizinische Dialoge

KI-Agenten setzen auf Bitcoin – neue Finanzarchitektur im Aufbruch

DIVA‑GRPO: Mehrschichtige Logik mit anpassbarer Schwierigkeitsstufe

Neural Paging: LLMs mit externem Speicher erreichen universelle Rechenkraft

LOGIGEN: Logikbasierte Generierung überprüfbarer Agentenaufgaben

HiMAC: Hierarchisches Lernen für LLM-Agenten in Langzeitaufgaben

Reward-Modelle ohne menschliche Hilfe: Skalierung durch unüberwachtes Lernen

Bridging Policy and Real-World Dynamics: LLM-Augmented Rebalancing for Shared Micromobility Systems

LiTS: Modulares Python-Framework für LLM-Tree-Search

Neue Methode entdeckt konservative Gleichgewichte in Offline-Spieltheorie

Auton Agentic AI: Neues Framework für autonome KI-Systeme

Reinforcement Learning garantiert probabilistische Stabilität mit endlich vielen Daten

OptiAgent: KI-gestütztes, physikbasiertes System für automatisiertes Optikdesign

K²-Agent: Hierarchischer Lernagent für mobile Geräte mit selbstentwickeltem Wissen

InfoPO: Optimierung von Agenten durch informationsbasierte Interaktion

MemPO: 73 % weniger Token, 26 % mehr F1 bei Langzeit-Agenten

RUMAD: Mit Verstärkungslernen die Effizienz von Multi-Agenten‑Debatten steigern

Recycling-Fehler: RLVR-Exploration durch feinkörnige Off‑Policy‑Anleitung

🍪 Cookie-Einstellungen

MemPO: 73 % weniger Token, 26 % mehr F1 bei Langzeit-Agenten