<p>Testzeit-Alignment: Präzise Steuerung von KI-Agenten ohne Retraining</p> <p>Die Herausforderung, KI-Agenten in komplexen, dynamischen Umgebungen an menschliche Werte zu binden, wächst stetig. Agenten, die ausschließlich auf die Maximierung ihrer Belohnungsfunktion trainiert werden, können dabei schädliches Verhalten entwickeln. Besonders bei vortrainierten Modellen ist ein erneutes Training teuer und zeitaufwendig, während die Vielfalt und potenzielle Konflikte ethischer Werte die Ausrichtung zusätzlich
Anzeige