Suche

Finde Modelle, Firmen und Themen

Suche im News-Archiv nach Themen, die du dauerhaft verfolgen willst.

Ergebnisse für “Menschliche Werte”
Forschung

<p>Testzeit-Alignment: Präzise Steuerung von KI-Agenten ohne Retraining</p> <p>Die Herausforderung, KI-Agenten in komplexen, dynamischen Umgebungen an menschliche Werte zu binden, wächst stetig. Agenten, die ausschließlich auf die Maximierung ihrer Belohnungsfunktion trainiert werden, können dabei schädliches Verhalten entwickeln. Besonders bei vortrainierten Modellen ist ein erneutes Training teuer und zeitaufwendig, während die Vielfalt und potenzielle Konflikte ethischer Werte die Ausrichtung zusätzlich

arXiv – cs.AI
Forschung

PersRM‑R1: Individuelle Belohnungsmodelle mit Reinforcement Learning <p>In der Welt der großen Sprachmodelle (LLMs) spielen Reward‑Models (RMs) eine zentrale Rolle, indem sie die Ausgaben der Modelle an menschliche Werte anpassen. Doch bisher konnten RMs kaum die feinen, persönlichen Präferenzen der Nutzer erfassen, besonders wenn nur wenige Daten vorliegen und die Anwendungsbereiche vielfältig sind.</p> <p>Mit PersRM‑R1 wird dieses Problem angegangen. Das neue Framework ist das erste, das auf einer rea

arXiv – cs.AI