LLMs lernen verneinen: Dual-Training für wissenschaftliche Argumentation
Die neuesten Erkenntnisse aus der arXiv‑Studie zeigen, dass große Sprachmodelle (LLMs) zwar bei der Textgenerierung brillieren, aber ihre Standard‑Trainingsmethoden – die sich stark auf bestätigende Inferenzen wie „modus ponens“ stützen – sie anfällig für logische Fehlschlüsse, gezielte Angriffe und Fehler in kausalen Schlüsseleffekten machen.
Durch gezielte Experimente konnten die Autoren nachweisen, dass führende LLM‑Modelle in wissenschaftlichen Kontexten, insbesondere bei Negationen, Gegenbeispielen oder fehlerhaften Prämissen, systematisch schwächeln. Diese Schwächen verdeutlichen, dass reine Bestätigung nicht ausreicht, um robuste wissenschaftliche Argumentation zu gewährleisten.
Als Lösung präsentiert das Paper ein Dual‑Inference‑Training, das generative Synthese mit strukturiertem, kontrafaktischem Verneinen kombiniert. Auf Basis formaler Logik, kognitiver Wissenschaft und adversarialer Trainingsmethoden wird die „Verneinung des Antezedens“ als Mechanismus zur Disconfirmation und Robustheit formalisiert. Das Ergebnis sind Modelle, die nicht nur gültige Schlussfolgerungen bestätigen, sondern auch ungültige ablehnen – ein entscheidender Schritt zu widerstandsfähigeren, interpretierbareren und menschlicheren KI‑Systemen.