ProRe: Proaktives Belohnungssystem steigert GUI-Agenten um bis zu 22,4 %
In der Forschung zu großen Sprachmodellen (LLMs) spielt die Belohnung eine zentrale Rolle für deren Bewertung und Training. Traditionelle regelbasierte oder modellbasierte Ansätze stoßen jedoch bei GUI-Agenten an ihre G…
- In der Forschung zu großen Sprachmodellen (LLMs) spielt die Belohnung eine zentrale Rolle für deren Bewertung und Training.
- Traditionelle regelbasierte oder modellbasierte Ansätze stoßen jedoch bei GUI-Agenten an ihre Grenzen, weil dort häufig keine echten Trajektorien oder Datenbanken zur Ve…
- Auch statische, trajektorienbasierte LLM‑als‑Judge-Methoden liefern nur begrenzte Genauigkeit.
In der Forschung zu großen Sprachmodellen (LLMs) spielt die Belohnung eine zentrale Rolle für deren Bewertung und Training. Traditionelle regelbasierte oder modellbasierte Ansätze stoßen jedoch bei GUI-Agenten an ihre Grenzen, weil dort häufig keine echten Trajektorien oder Datenbanken zur Verfügung stehen. Auch statische, trajektorienbasierte LLM‑als‑Judge-Methoden liefern nur begrenzte Genauigkeit.
Um diese Probleme zu lösen, wurde ProRe entwickelt – ein proaktives Belohnungssystem, das einen allgemeinen Reasoner mit domänenspezifischen Evaluator‑Agenten (Actors) kombiniert. Der Reasoner plant gezielte Zustandsabfrageaufgaben, die die Evaluator‑Agenten durch aktive Interaktion mit der Umgebung ausführen. Durch das Sammeln zusätzlicher Beobachtungen kann der Reasoner präzisere und verifizierbare Belohnungen vergeben.
Experimentelle Ergebnisse über mehr als 3.000 Trajektorien zeigen, dass ProRe die Belohnungsgenauigkeit um bis zu 5,3 % und die F1‑Score um 19,4 % steigert. Darüber hinaus führt die Integration von ProRe in moderne Policy‑Agenten zu einer Erfolgsrate von bis zu 22,4 % – ein deutlicher Fortschritt gegenüber bestehenden Methoden.
Welche Linse du auf diese Meldung legen solltest
LLMs sind Sprachmodelle, die Text verstehen, erzeugen und in Produkte eingebettet werden.
Achte zuerst auf Modellqualitaet, Kosten pro Nutzung und darauf, ob echte Produktverbesserungen oder nur Benchmarks kommuniziert werden.
Kontext ohne Glossar-Suche
Wenn du nach dieser Meldung weiterlernen willst
Von dieser Meldung direkt in Hub, Analyse und Nachbarthemen
Achte zuerst auf Modellqualitaet, Kosten pro Nutzung und darauf, ob echte Produktverbesserungen oder nur Benchmarks kommuniziert werden.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.