Neue Transformation macht KI‑Ziele korrigierbar – ohne Leistungseinbußen
In einer wegweisenden Veröffentlichung auf arXiv wird ein neues Konzept vorgestellt, das KI‑Ziele so gestaltet, dass sie sich problemlos an neue Informationen anpassen können. Der Autor definiert „corrigibility“ als die Eigenschaft, dass ein Ziel keine Anreize schafft, Updates zu blockieren oder die KI selbst zu deaktivieren. Diese Eigenschaft ist entscheidend, damit KIs nicht nur lernen, sondern auch Fehler korrigieren und sich an veränderte menschliche Präferenzen anpassen können.