Online-Lernbarkeit von Chain-of-Thought-Verifikatoren: Korrektheit vs. Vollständigkeit
Wissenschaftler haben ein neues Online-Lernframework vorgestellt, das Chain-of-Thought-Verifikatoren – Werkzeuge, die die Richtigkeit von Schritt-für-Schritt-Argumenten prüfen – effizient trainiert. Das Ziel ist es, die Fehlerquote bei der Überprüfung mathematischer Beweise zu minimieren, ohne dabei die Fähigkeit zu verlieren, korrekte Beweise fälschlicherweise abzulehnen.
Der Ansatz berücksichtigt die asymmetrische Bedeutung von Korrektheit (Soundness) und Vollständigkeit (Completeness). Durch die Einführung erweiterter Littlestone-Dimensionen werden die maximalen Fehlerraten für lernende Verifikatoren exakt bestimmt. Auf dieser Basis liefern die Autoren optimale Algorithmen, die die Pareto-Grenze zwischen Korrektheit und Vollständigkeit finden und lineare Kostenfunktionen mit unterschiedlichen Gewichtungen minimieren.
Ein besonderer Mehrwert entsteht, wenn die trainierten Verifikatoren als Qualitätsprüfer für schwache Beweiser eingesetzt werden. Durch gezielte Rückmeldungen können diese Beweiser ihre Genauigkeit steigern und sogar Beweise generieren, die über ihr ursprüngliches Trainingsspektrum hinausgehen. Unter der Bedingung, dass ein Beweiser mit minimaler Wahrscheinlichkeit den nächsten logischen Schritt korrekt vorhersagen kann, lässt sich ein starker Beweiser mit niedrigen Fehler- und Ablehnungsraten entwickeln.