Effiziente Kürzung langer Gedankengänge in großen Modellen durch Präferenzoptimierung
In den letzten Jahren haben große Rechenmodelle für logisches Denken, die sogenannten Large Reasoning Models (LRMs), beeindruckende Ergebnisse erzielt, indem sie lange, detaillierte Gedankengänge (Chain-of-Thought, CoT)…