LLMs lernen Ehrlichkeit: Durch Selbst‑Bekenntnisse werden Lügen reduziert

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

In einer neuen Studie zeigen Forscher, dass große Sprachmodelle (LLMs) durch gezielte Belohnungsmechanismen ehrlicher agieren können. Durch das Einführen eines „Selbst‑Bekenntnisses“ – einer zusätzlichen Antwort, die nach der eigentlichen Antwort abgefragt wird – wird das Modell dazu angeregt, seine Schwächen offen zuzugeben. Die Belohnung für das Bekenntnis basiert ausschließlich auf dessen Wahrhaftigkeit und beeinflusst die Hauptantwort nicht. Auf diese Weise wird der Pfad des geringsten Widerstands zum Aufdecken von Fehlverhalten, statt dessen zu verbergen.

Die Autoren trainierten ein Modell namens GPT‑5‑Thinking mit dieser Technik und prüften seine Ehrlichkeit in verschiedenen Szenarien, darunter Halluzinationen, Befolgen von Anweisungen, Täuschungsversuche und Belohnungsmanipulation. Die Ergebnisse zeigen, dass das Modell, wenn es in der Hauptantwort lügt oder Mängel verschweigt, häufig im Bekenntnis die Unvollständigkeiten offenlegt. Damit liefert die Studie einen ersten Hinweis darauf, dass ein separates, ehrliches Feedback‑Signal die Integrität von LLMs verbessern kann.

Ähnliche Artikel