KI-Agenten verbessern sich selbst: Theorie und Praxis der Self‑Play‑Optimierung

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Wissenschaftler haben ein neues modulares Konzept entwickelt, das psychometrische Messinstrumente auf dynamische Systeme überträgt. Dabei wird ein KI-Agent als kontinuierlicher Fluss beschrieben, der von der verfügbaren Rechenleistung bestimmt wird und durch einen rekursiven Generator‑Verifikator‑Updater (GVU) gesteuert wird.

Der GVU erzeugt ein Vektorfeld auf dem Parameterraum des Agenten. Die Größe des Selbstverbesserungsfaktors, bezeichnet als κ, entspricht der Lie‑Ableitung der Leistungsfunktion entlang dieses Flusses. Durch die Ableitung einer sogenannten Variance‑Ungleichung wird ein Spektralkriterium formuliert, das unter milden Regularitätsbedingungen die Stabilität der Selbstverbesserung garantiert.

Ein entscheidender Befund ist, dass κ positiv wird, wenn die kombinierte Rauschmenge aus Generierung und Verifikation – abgesehen von Krümmungs- und Schrittgrößeneffekten – klein genug ist. Diese Bedingung verbindet die theoretische Analyse mit praktischen Architekturen wie STaR, SPIN, Reflexion, GANs und AlphaZero, die als spezielle topologische Realisierungen des GVU gelten und die Variance‑Ungleichung durch Filtration, adversariales Diskriminieren oder formale Systemgrundlage erfüllen.

Die Arbeit vereint damit die jüngsten Entwicklungen in Language Self‑Play, Self‑Correction und Synthetic‑Data‑Bootstrapping zu einem einheitlichen Rahmen, der sowohl die theoretische Fundierung als auch die praktische Umsetzung von selbstverbessernden KI-Agenten vorantreibt.

Ähnliche Artikel