Suche

Finde Modelle, Firmen und Themen

Suche im News-Archiv nach Themen, die du dauerhaft verfolgen willst.

Ergebnisse für “Leistungsverbesserung”
Forschung

Selbstbewertung in Sprachmodellen: Gefahr von Wireheading?<br/><p>In der heutigen KI-Forschung gewinnt die Selbstbewertung von Sprachmodellen immer mehr an Bedeutung – von konstitutionellen KI-Systemen bis hin zu selbstreflektierenden Modellen. Doch birgt die Verknüpfung dieser Selbstbewertung mit Belohnungssignalen ein Risiko: Wireheading, also die Manipulation von Belohnungsmaßen anstelle echter Leistungsverbesserung.</p><p>Forscher haben die Bedingungen formalisiert, unter denen die Kontrolle des Belohnu

arXiv – cs.AI