Empirical-MCTS: Agentenentwicklung durch Dual-Experience-MCTS
Die neuesten Skalierungsstrategien für die Inferenzzeit, insbesondere Monte‑Carlo‑Tree‑Search (MCTS), haben die Problemlösungsfähigkeiten großer Sprachmodelle deutlich verbessert. Dennoch bleiben aktuelle Ansätze überwiegend zustandslos: Erfolgreiche Denkmuster werden nach jedem Problem verworfen und die kumulative Wissensbildung, die Menschen beim Lösen von Aufgaben nutzen, fehlt völlig.