T-STAR: Neue Methode verbessert Mehrschritt-Entscheidungen von Sprachagenten
Reinforcement‑Learning‑Modelle für große Sprachagenten stoßen häufig an die Grenze sparsamer Belohnungen, wenn sie komplexe, mehrstufige Denkaufgaben lösen sollen. Traditionelle Ansätze wie Group Relative Policy Optimiz…