LLMs prüfen ihre eigenen Argumente: GRPO-Verif steigert Selbstverifikation
Durch Verstärkungslernen (RL) haben große Sprachmodelle (LLMs) ihre Fähigkeit zum logischen Denken deutlich verbessert. Dennoch bleibt die Herausforderung bestehen: LLMs können ihre eigenen Rechenwege nicht zuverlässig überprüfen, was die Vertrauenswürdigkeit ihrer Antworten einschränkt.