LLMs prüfen ihre eigenen Argumente: GRPO-Verif steigert Selbstverifikation
Durch Verstärkungslernen (RL) haben große Sprachmodelle (LLMs) ihre Fähigkeit zum logischen Denken deutlich verbessert. Dennoch bleibt die Herausforderung bestehen: LLMs können ihre eigenen Rechenwege nicht zuverlässig überprüfen, was die Vertrauenswürdigkeit ihrer Antworten einschränkt.
In der neuen Studie wird der Algorithmus GRPO-Verif vorgestellt, der die Generierung von Lösungen und die Selbstverifikation in einem einzigen Verlustterm zusammenführt. Ein anpassbares Hyperparameter gewichtet dabei das Verifikationssignal, sodass das Modell flexibel lernen kann, wann und wie stark es seine eigenen Argumente prüfen soll.
Experimentelle Tests zeigen, dass GRPO-Verif die Selbstverifikationsfähigkeit signifikant erhöht, während die reine Problemlösungskompetenz auf dem gleichen Niveau bleibt. Damit eröffnet die Methode einen vielversprechenden Ansatz, um LLMs nicht nur zu besseren Antworten, sondern auch zu verlässlicheren Überprüfungen ihrer eigenen Denkprozesse zu verhelfen.