Forschung
LLM-Active Alignment: Nash-Gleichgewicht als Weg zur sicheren KI
In einer neuen Studie wird ein spieltheoretisches Modell vorgestellt, das das Verhalten von großen Sprachmodellen (LLMs) vorhersagen und ge…
arXiv – cs.AI