KI-Modelle lernen selbstständig – R‑Few reduziert menschliche Kontrolle
Die Idee, dass KI‑Modelle sich eigenständig weiterentwickeln und dabei immer mehr Wissen aus eigenen Lernprozessen aufnehmen, gilt seit langem als möglicher Weg zu Superintelligenz. In der Praxis stoßen jedoch unkontrollierte Selbstentwicklungs‑Systeme schnell an Grenzen: Sie plateien, verlieren an Vielfalt, oder entwickeln eigene Vorurteile, sodass sie zu monotonen, wenig informativen Zuständen konvergieren.
Um diese Probleme zu überwinden, stellt die neue Studie das R‑Few‑Framework vor. Dabei kombiniert ein „Challenger“ – ein leichtgewichtiger Teil des Systems – mit wenigen menschlich gekennzeichneten Beispielen, um gezielt neue Fragen zu generieren. Der „Solver“ trainiert anschließend gleichzeitig an diesen menschlichen und an den synthetisch erzeugten Beispielen, wobei ein Online‑Curriculum die Schwierigkeit der Aufgaben dynamisch anpasst. So bleibt die Selbstentwicklung stabil und kontrollierbar, während die Abhängigkeit von menschlicher Aufsicht minimiert wird.
Auf einer Reihe von Mathematik‑ und allgemeinen Logik‑Tests zeigte R‑Few konsistente Verbesserungen. So konnte beispielsweise das Modell Qwen3‑8B‑Base um 3,0 Punkte gegenüber dem ungeleiteten R‑Zero‑Ansatz aufmathematischen Aufgaben steigen und erreichte Leistungen, die mit denen des General‑Reasoner‑Modells vergleichbar sind – letzteres wurde mit 20‑fach mehr menschlichen Daten trainiert. Ablationsstudien bestätigten, dass sowohl die in‑Kontext‑Grundlegung des Challengers als auch das curriculum‑basierte Training des Solvers entscheidend zum Erfolg beitragen. Darüber hinaus demonstrierte R‑Few eine deutliche Reduktion von Konzept‑Drift, was zu stabileren und vorhersehbareren Co‑Evolutions‑Dynamiken führt.
Die Ergebnisse zeigen, dass selbstgesteuerte KI‑Entwicklung mit minimaler menschlicher Aufsicht möglich ist, ohne dass die Qualität der Lernfortschritte leidet. R‑Few liefert damit einen vielversprechenden Ansatz, um die nächste Generation von KI‑Systemen effizienter und sicherer zu trainieren.