Suche nach GRPO | meineki.news

VISA: Präzise Werteanpassung von LLMs ohne Qualitätsverlust

Ein neues Verfahren namens VISA (Value Injection via Shielded Adaptation) verspricht, Large Language Models (LLMs) genauer an menschliche W…

arXiv – cs.AI 06.03.2026 05:00

Forschung

HiMAP-Travel: Hierarchische Multi-Agentenplanung revolutioniert Langzeitreisen

In der Welt der Reiseplanung stoßen herkömmliche LLM‑Agenten an ihre Grenzen, wenn sie langfristige Reiseziele mit strengen Vorgaben wie Bu…

arXiv – cs.AI 06.03.2026 05:00

Forschung

IntPro: Intelligenter Proxy-Agent für kontextabhängiges Intent-Understanding

Large Language Models (LLMs) sind heute unverzichtbar für die Zusammenarbeit zwischen Mensch und KI. Ein entscheidender Schritt dabei ist d…

arXiv – cs.AI 05.03.2026 05:00

Forschung

<h1>LLM-gestützte Schiffswegvorhersage: ShipTraj‑R1 setzt neue Maßstäbe</h1> <p>Durch die jüngsten Fortschritte im Bereich der Verstärkungsoptimierung von Sprachmodellen hat sich die Fähigkeit großer Sprachmodelle (LLMs) zur logischen Problemlösung deutlich verbessert. Besonders die Methode des Group Relative Policy Optimization (GRPO) hat in verschiedenen Anwendungsfeldern starke Ergebnisse erzielt.</p> <p>Die Anwendung von LLMs auf die Vorhersage von Schiffsrouten blieb bislang weitgehend unerforscht. In

arXiv – cs.AI 04.03.2026 05:00

Forschung

Neuer Algorithmus ATPO: Adaptive Tree Policy Optimierung steigert medizinische Dialoge

Ein neuer Ansatz namens Adaptive Tree Policy Optimization (ATPO) verspricht, die Qualität von medizinischen Dialogen deutlich zu verbessern…

arXiv – cs.LG 04.03.2026 05:00

Forschung

DIVA‑GRPO: Mehrschichtige Logik mit anpassbarer Schwierigkeitsstufe

Reinforcement‑Learning‑Modelle, die auf Group Relative Policy Optimization (GRPO) setzen, haben sich als effektive Methode etabliert, um di…

arXiv – cs.AI 03.03.2026 05:00

Forschung

OptiAgent: KI-gestütztes, physikbasiertes System für automatisiertes Optikdesign

OptiAgent ist ein neu entwickeltes, physikgetriebenes Agenten-Framework, das die Automatisierung des Optikdesigns revolutioniert. Durch die…

arXiv – cs.LG 02.03.2026 05:00

Forschung

K²-Agent: Hierarchischer Lernagent für mobile Geräte mit selbstentwickeltem Wissen

Ein neuer Ansatz namens K²-Agent verspricht, die Grenzen herkömmlicher mobile Geräte‑Controller zu sprengen. Durch die Trennung von deklara…

arXiv – cs.AI 03.03.2026 05:00

Praxis

FireRedTeam präsentiert FireRed-OCR-2B: Halluzinationen in Tabellen und LaTeX

Die Digitalisierung von Dokumenten ist seit langem ein mehrstufiges Problem: Zunächst muss das Layout erkannt, anschließend der Text extrah…

MarkTechPost 02.03.2026 06:38

Forschung

Neue Methode distilliert RL-optimierte LLMs effizienter

Reinforcement‑Learning‑Post‑Training hat kürzlich große Fortschritte bei der langen Ketten‑von‑Denken‑Logik von großen Sprachmodellen erzie…

arXiv – cs.LG 27.02.2026 05:00

Forschung

UpSkill steigert LLMs: Treffer bei mehreren Versuchen dank Mutual Information

Die neue Methode UpSkill, entwickelt von Forschern auf arXiv, nutzt Mutual Information Skill Learning (MISL), um die Trefferquote mehrerer…

arXiv – cs.LG 27.02.2026 05:00

Forschung

Selbstvertrauen in RL führt zu Fehlern – asymmetrische Strafen helfen

In der Welt der großen Sprachmodelle (LLMs) hat sich Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) als führendes Verfahren…

arXiv – cs.AI 26.02.2026 05:00

Forschung

Verbesserte Anspruchsprüfung durch gezielte Decomposition und Alignment

Eine neue Methode zur Überprüfung komplexer Behauptungen kombiniert Reinforcement Learning mit gezieltem Alignment, um die Qualität der Unt…

arXiv – cs.AI 26.02.2026 05:00

Forschung

NoRD: Vision-Language-Action-Modell fährt ohne umfangreiche Daten und Reasoning

Ein neues Forschungsergebnis aus dem Bereich autonomes Fahren präsentiert NoRD, ein Vision‑Language‑Action‑Modell, das ohne umfangreiche Da…

arXiv – cs.AI 25.02.2026 05:00

Forschung

BAPO: Off‑Policy RL steigert Effizienz von LLMs um 12,5 %

Ein neues Verfahren namens Batch Adaptation Policy Optimization (BAPO) verspricht, die Effizienz von großen Sprachmodellen nach dem Trainin…

arXiv – cs.AI 25.02.2026 05:00

Forschung

ProxMO: Neue Methode für effizientes Training von LLM-Agenten

In modernen Produktionssystemen, von Kundenservice-Automatisierung bis hin zu interaktiven Einkaufsassistenten, gewinnen mehrstufige LLM‑Ag…

arXiv – cs.AI 24.02.2026 05:00

Produkt

CodeFu-7B mit veRL und Ray auf Amazon SageMaker trainieren

In diesem Beitrag zeigen wir, wie man das 7‑Billionen‑Parameter‑Modell CodeFu‑7B – speziell für Wettbewerbsprogrammierung – mit Group Relat…

AWS – Machine Learning Blog 24.02.2026 15:46

Forschung

<h1>CoT-Distillation: Curriculum Learning mit strukturiertem Maskieren & GRPO</h1> <p>Die Übertragung von Chain‑of‑Thought‑(CoT)‑Logik aus großen Sprachmodellen in kompakte Nachschreibermodelle stellt ein zentrales Problem dar: die ausführlichen Begründungen der Lehrermodelle sind für kleinere Modelle oft zu umfangreich, um sie exakt zu replizieren. Traditionelle Ansätze reduzieren die Logik auf einen einzigen Schritt, wodurch die wertvolle Interpretierbarkeit verloren geht.</p> <p>In der neuen Studie wird

arXiv – cs.AI 23.02.2026 05:00

Forschung

WS-GRPO: Gruppen-Relative Policy-Optimierung für effizientes Rollout

Die neu entwickelte Methode WS‑GRPO (Weakly‑Supervised Group‑Relative Policy Optimization) adressiert ein zentrales Problem bei der Anwendu…

arXiv – cs.LG 20.02.2026 05:00

Forschung

EnterpriseGym Corecraft: KI-Agenten lernen in realitätsnahen RL-Umgebungen

Surge AI hat mit der Einführung von Corecraft die erste Umgebung der EnterpriseGym-Suite vorgestellt. Corecraft simuliert ein voll funktion…

arXiv – cs.AI 19.02.2026 05:00

Forschung

CogRouter: Dynamische Tiefenanpassung für LLM-Agenten erhöht Effizienz und Erfolg

Large Language Models (LLMs) werden zunehmend als autonome Agenten eingesetzt, um komplexe Mehrschritt-Entscheidungsaufgaben zu lösen. Dabe…

arXiv – cs.AI 16.02.2026 05:00

Forschung

Flow-Factory: Einheitliches RL-Framework für Flow-Matching-Modelle

Reinforcement Learning hat sich als vielversprechendes Mittel etabliert, um Diffusions- und Flow-Matching‑Modelle an menschliche Präferenze…

arXiv – cs.LG 16.02.2026 05:00

Praxis

Kyutai präsentiert Hibiki-Zero: Sprache-zu-Sprache-Übersetzung ohne Wortabgleich

Kyutai hat das neue Modell Hibiki-Zero vorgestellt, das simultane Übersetzungen von Sprache zu Sprache (S2ST) sowie von Sprache zu Text (S2…

MarkTechPost 13.02.2026 18:05

Forschung

TSR: Trajektorien‑Suche verbessert Multi‑Turn RL für LLM‑Agenten

Die neuesten Fortschritte bei großen Sprachmodellen (LLMs) führen zu einem Paradigmenwechsel: Statt statischer Trainingsdaten werden Agente…

arXiv – cs.AI 13.02.2026 05:00

Forschung

V-STAR: Wertgesteuerte Stichprobe und Optimierung für generative Empfehlungen

Autoregressive Modelle haben die Suche und das Ranking in einem einzigen generativen Rahmen vereint. Beim Feintuning dieser Modelle mit Rei…

arXiv – cs.AI 12.02.2026 05:00

Forschung

Blockweise Vorteilsschätzung optimiert Multi-Objective RL in Textgenerierung

Eine neue Technik namens Blockwise Advantage Estimation (BAE) verspricht, die Leistung von Reinforcement‑Learning‑Modellen bei strukturiert…

arXiv – cs.LG 12.02.2026 05:00

Forschung

Ein Prompt macht KI-Modelle unsicher – neue Methode GRP-Oblit

Die Sicherheit von Sprachmodellen hängt von ihrem schwächsten Punkt ab. Obwohl umfangreiche Arbeiten zur Sicherheit nach dem Training exist…

arXiv – cs.LG 09.02.2026 05:00

Forschung

SWIRL: Selbstverbessernde Weltmodellierung ohne Aktionsdaten

Ein neues Forschungsprojekt namens SWIRL (Self‑Improving World Modelling with Latent Actions) zeigt, wie große Sprach‑ und Bildmodelle ihre…

arXiv – cs.AI 09.02.2026 05:00

Forschung

DEPO: Mit Schwierigkeitsbewertung die Kosten für Rollouts halbieren

Ein neues arXiv-Papier präsentiert DEPO, ein innovatives Verfahren zur Optimierung von Large Reasoning Models (LRMs). Durch die Einführung…

arXiv – cs.AI 09.02.2026 05:00

Forschung

ProAct: Agenten mit präziser Vorhersage meistern komplexe Interaktionen

Das neue ProAct‑Framework löst ein langjähriges Problem von Large‑Language‑Model‑Agenten: die Schwierigkeit, in interaktiven Umgebungen lan…

arXiv – cs.AI 06.02.2026 05:00

Finde Modelle, Firmen und Themen

VISA: Präzise Werteanpassung von LLMs ohne Qualitätsverlust

HiMAP-Travel: Hierarchische Multi-Agentenplanung revolutioniert Langzeitreisen

IntPro: Intelligenter Proxy-Agent für kontextabhängiges Intent-Understanding

Neuer Algorithmus ATPO: Adaptive Tree Policy Optimierung steigert medizinische Dialoge

DIVA‑GRPO: Mehrschichtige Logik mit anpassbarer Schwierigkeitsstufe

OptiAgent: KI-gestütztes, physikbasiertes System für automatisiertes Optikdesign

K²-Agent: Hierarchischer Lernagent für mobile Geräte mit selbstentwickeltem Wissen

FireRedTeam präsentiert FireRed-OCR-2B: Halluzinationen in Tabellen und LaTeX

Neue Methode distilliert RL-optimierte LLMs effizienter

UpSkill steigert LLMs: Treffer bei mehreren Versuchen dank Mutual Information

Selbstvertrauen in RL führt zu Fehlern – asymmetrische Strafen helfen

Verbesserte Anspruchsprüfung durch gezielte Decomposition und Alignment

NoRD: Vision-Language-Action-Modell fährt ohne umfangreiche Daten und Reasoning

BAPO: Off‑Policy RL steigert Effizienz von LLMs um 12,5 %

ProxMO: Neue Methode für effizientes Training von LLM-Agenten

CodeFu-7B mit veRL und Ray auf Amazon SageMaker trainieren

WS-GRPO: Gruppen-Relative Policy-Optimierung für effizientes Rollout

EnterpriseGym Corecraft: KI-Agenten lernen in realitätsnahen RL-Umgebungen

CogRouter: Dynamische Tiefenanpassung für LLM-Agenten erhöht Effizienz und Erfolg

Flow-Factory: Einheitliches RL-Framework für Flow-Matching-Modelle

Kyutai präsentiert Hibiki-Zero: Sprache-zu-Sprache-Übersetzung ohne Wortabgleich

TSR: Trajektorien‑Suche verbessert Multi‑Turn RL für LLM‑Agenten

V-STAR: Wertgesteuerte Stichprobe und Optimierung für generative Empfehlungen

Blockweise Vorteilsschätzung optimiert Multi-Objective RL in Textgenerierung

Ein Prompt macht KI-Modelle unsicher – neue Methode GRP-Oblit

SWIRL: Selbstverbessernde Weltmodellierung ohne Aktionsdaten

DEPO: Mit Schwierigkeitsbewertung die Kosten für Rollouts halbieren

ProAct: Agenten mit präziser Vorhersage meistern komplexe Interaktionen

🍪 Cookie-Einstellungen

BAPO: Off‑Policy RL steigert Effizienz von LLMs um 12,5 %