Neue geometrische Benchmark‑Methodik ebnet Weg zum AGI
Ein neues arXiv‑Veröffentlichung präsentiert einen revolutionären Ansatz, um die Fortschritte in der künstlichen Intelligenz zu messen. Anstatt Modelle nur auf isolierten Test‑Sätzen zu bewerten, wird ein geometrisches Rahmenwerk vorgestellt, in dem sämtliche psychometrischen Batteries als Punkte in einem strukturierten Moduli‑Raum dargestellt werden.
Der Artikel führt die „Autonomous AI (AAI) Scale“ ein, eine Kardashev‑ähnliche Hierarchie der Autonomie, die sich an messbaren Leistungen über verschiedene Aufgabenfamilien wie Logik, Planung, Werkzeuggebrauch und langfristige Kontrolle orientiert. Durch die Konstruktion eines Moduli‑Raums für Batteries werden Gleichwertigkeitsklassen von Benchmarks identifiziert, die hinsichtlich der Agenten‑Ranking‑ und Fähigkeits‑Inference unverwechselbar sind.
Ein zentrales Ergebnis ist, dass dichte Familien von Batteries ausreichen, um die Leistung in gesamten Regionen des Aufgabenraums zu zertifizieren. Darüber hinaus wird ein allgemeiner Generator‑Verifier‑Updater (GVU) Operator vorgestellt, der Reinforcement Learning, Selbstspiel, Debatte und verifierbasiertes Feintuning als Spezialfälle umfasst. Der Selbstverbesserungskoeffizient κ wird als Lie‑Ableitung einer Fähigkeitsfunktion entlang des induzierten Flusses definiert.
Eine Varianz‑Ungleichung für die kombinierte Rauschkomponente von Generierung und Verifikation liefert Bedingungen, unter denen κ positiv ist. Diese Erkenntnisse legen nahe, dass der Weg zur künstlichen Allgemeinen Intelligenz am besten als Fluss durch den Moduli‑Raum verstanden wird, wobei kontinuierliche Selbstverbesserung die treibende Kraft ist.