Online-Lernbarkeit von Chain-of-Thought-Verifikatoren: Korrektheit vs. Vollständigkeit
Wissenschaftler haben ein neues Online-Lernframework vorgestellt, das Chain-of-Thought-Verifikatoren – Werkzeuge, die die Richtigkeit von Schritt-für-Schritt-Argumenten prüfen – effizient trainiert. Das Ziel ist es, die…