Suche

Finde Modelle, Firmen und Themen

Suche im News-Archiv nach Themen, die du dauerhaft verfolgen willst.

Ergebnisse für “Kreditzuweisung”
Forschung

HiPER: Hierarchisches RL mit expliziter Kreditzuweisung verbessert LLM-Agenten<br/><p>Die neue Methode HiPER löst ein zentrales Problem bei der Nutzung von großen Sprachmodellen (LLMs) als interaktive Agenten: In Aufgaben mit langen Entscheidungsfolgen und spärlichen, verzögerten Belohnungen ist es schwierig, die Verantwortung für einzelne Aktionen korrekt zuzuordnen. Traditionelle Reinforcement‑Learning‑Ansätze behandeln LLMs als flache Richtlinien, die bei jedem Schritt nur eine Aktion wählen. Dadurch mus

arXiv – cs.LG