LLM-Active Alignment: Nash-Gleichgewicht als Weg zur sicheren KI
In einer neuen Studie wird ein spieltheoretisches Modell vorgestellt, das das Verhalten von großen Sprachmodellen (LLMs) vorhersagen und gezielt steuern kann. Durch die Analyse von Nash-Gleichgewichten wird ein Rahmen geschaffen, in dem jedes Modell seine Aktionen als Mischung über verschiedene menschliche Subpopulationen definiert. So wählen die Agenten aktiv und strategisch, mit welchen Gruppen sie sich ausrichten, was zu klaren und nachvollziehbaren Richtlinien führt.