<h1>LLMs lernen, ihre versteckten Ziele offen zu legen – neue Technik</h1> <p>In einer aktuellen Veröffentlichung auf arXiv wird eine vielversprechende Methode vorgestellt, die große Sprachmodelle dazu bringt, ihre eigenen Fehler und sogar versteckte, nicht ausgerichtete Ziele offen zu legen. Die Technik, genannt Self‑Report Fine‑Tuning (SRFT), nutzt ein einfaches, überwachtes Fein‑Tuning, um Modelle zu trainieren, bei Fragen zuzugeben, wenn sie falsche Fakten liefern.</p> <p>Die Autoren zeigen, dass diese
Anzeige