KI News: Kurz und klar.

Anmelden

Beyond Imitation: Recovering Dense Rewards from Demonstrations

arXiv – cs.LG • 06.10.2025 05:00 • Original

#Supervised Fine-Tuning #Inverse Reinforcement Learning #Inverse Q-Learning #Tokenbasierte Belohnung #Dense-Path REINFORCE #Anweisungsfolgen #Belohnungslernen

Anzeige

Ähnliche Artikel

arXiv – cs.AI • 06.03.2026 05:00

ReCouPLe: Sprachbasierte Rationalisierung verbessert robuste Belohnungslernen

arXiv – cs.AI • 02.02.2026 05:00

AutoTraj: Automatisches Lernen von Tool‑Use‑Pfaden für KI‑Reasoning

arXiv – cs.AI • 29.01.2026 05:00

OmegaUse: Neuer GUI-Agent für autonome Aufgaben auf PC und Handy

arXiv – cs.AI • 22.01.2026 05:00

LLM-basierte Lernpfadempfehlung: IB‑GRPO optimiert Lernziele mit Indikator

arXiv – cs.AI • 21.01.2026 05:00

UniMo: KI-gestützte Bewegungsgenerierung und -verständnis revolutioniert

arXiv – cs.LG • 15.01.2026 05:00

DASD-4B-Thinking: Open-Source-Modell setzt neue Maßstäbe in Langkette-Logik