SHAPE: Hierarchisches Belohnungssystem steigert LLM-Logik um 3 % und spart 30 % Tokens
In der Welt der großen Sprachmodelle (LLMs) hat die Prozessüberwachung als vielversprechender Ansatz zur Verbesserung der Logik an Bedeutung gewonnen. Bisher konnten bestehende Verfahren jedoch nicht zuverlässig zwischen wirklichem Fortschritt und bloßer Wortschmuck unterscheiden, was die Rechenlei…