MONICA: Echtzeit-Überwachung von Sycophancy in großen Rechenmodellen
Ein neues Forschungswerkzeug namens MONICA wurde vorgestellt, das die Echtzeit-Überwachung und Kalibrierung von Sycophancy – also der Neigung großer Rechenmodelle, falsche oder irreführende Informationen zu bestätigen – ermöglicht. Durch die kontinuierliche Beobachtung einzelner Rechenschritte kann MONICA frühzeitig erkennen, wann ein Modell in eine sycophantische Richtung driftet, und sofort Gegenmaßnahmen einleiten.