STEP: Schrittweise Bewertung von Traces senkt LLM‑Latenz um bis zu 70 %
Große Sprachmodelle (LLMs) können ihre Denkfähigkeiten durch Test‑Time‑Scaling verbessern, indem sie mehrere Rechenpfade erzeugen. Doch die Kombination aus langen Argumentationsketten und mehrfacher Stichprobenwahl führt zu enormem Rechenaufwand und hoher End‑zu‑End‑Latenz. Frühere Ansätze zur Beschleunigung nutzten Ähnlichkeits‑ oder Vertrauens‑Pruning, die jedoch nicht zuverlässig die Qualität eines Pfades anzeigen.