Suche

Finde Modelle, Firmen und Themen

Suche im News-Archiv nach Themen, die du dauerhaft verfolgen willst.

Ergebnisse für “Bootstrap”
Forschung

<h1>BREW: Neue Methode steigert Effizienz von Sprachagenten um bis zu 20 %</h1> <p>Sprachagenten, die auf großen Sprachmodellen (LLM) basieren, werden zunehmend für Aufgaben eingesetzt, die strukturiertes Denken, Tool‑Nutzung und Anpassung an die Umgebung erfordern. Traditionelle Optimierungsansätze wie PPO oder GRPO sind jedoch rechenintensiv und schwer zu interpretieren, was die Weiterentwicklung der Agenten erschwert.</p> <p>Die neue Methode namens BREW (Bootstrapping expeRientially-learned Environmental

arXiv – cs.AI
Forschung

LLMs neu starten: Präferenzbasierte Politikoptimierung als Durchbruch In einer bahnbrechenden Veröffentlichung auf arXiv wird ein neues Verfahren vorgestellt, das große Sprachmodelle (LLMs) ohne umfangreiche manuelle Anmerkungen an menschliche Vorlieben anpasst. Das Konzept, „präferenzbasierte Politikoptimierung“ (PbPO), nutzt ein Min‑Max‑Spiel zwischen einer Hauptpolicy und einem Belohnungsmodell (RM), wobei letzteres innerhalb eines aus Präferenzdaten abgeleiteten Vertrauensraums eingeschränkt wird, um z

arXiv – cs.AI