Forschung
SHAPE: Hierarchisches Belohnungssystem steigert LLM-Logik um 3 % und spart 30 % Tokens
In der Welt der großen Sprachmodelle (LLMs) hat die Prozessüberwachung als vielversprechender Ansatz zur Verbesserung der Logik an Bedeutun…
arXiv – cs.LG