Forschung
LLMs prüfen ihre eigenen Argumente: GRPO-Verif steigert Selbstverifikation
Durch Verstärkungslernen (RL) haben große Sprachmodelle (LLMs) ihre Fähigkeit zum logischen Denken deutlich verbessert. Dennoch bleibt die…
arXiv – cs.LG