SuperIntelliAgent: Selbstlernender Agent mit kontinuierlichem Wachstum
Ein neues Forschungsprojekt namens SuperIntelliAgent eröffnet einen Weg zu kontinuierlich wachsender Intelligenz. Das System kombiniert ein kleines, trainierbares Diffusionsmodell – den Lernenden – mit einem großen, unveränderten Sprachmodell – dem Verifizierer. Durch selbstgesteuerte, interaktive Lernzyklen kann der Agent ohne externe Annotationen Fortschritte erzielen.
Der Lernende erzeugt zunächst mögliche Ausgaben zu einem gegebenen Input. Der Verifizierer prüft diese Vorschläge Schritt für Schritt und bewertet sie. Auf Basis dieser Bewertung werden Paare von akzeptierten und abgelehnten Ausgaben für die Direct Preference Optimization (DPO) generiert. Jedes Input-Output-Paar wird so zu einem pseudo-Trainingssignal, das den Lernenden kontinuierlich verbessert.
SuperIntelliAgent nutzt ein duales Speichersystem. Kurzfristig werden die Rechenpfade in einer In‑Context‑Memory gespeichert, um während der Verfeinerungszyklen auf frühere Überlegungen zurückgreifen zu können. Langfristig konsolidiert ein leichtgewichtiges On‑the‑Fly‑Fine‑Tuning das erworbene Wissen. Zusätzlich hält ein Replay‑Buffer ausgewählte Beispiele bereit, die nachweislich Fortschritte zeigen, und nutzt sie als zusätzliche Lernhilfe, um aktuelle Fortschritte zu festigen und adaptive Lernpläne zu bilden.
Das Framework ist infrastrukturell unabhängig und lässt sich in bestehende agentische Systeme integrieren. Damit wird ein gewöhnlicher Inferenz‑Loop zu einem lebenslangen Optimierungsprozess. Die Autoren betonen, dass die Kombination aus einem lernfähigen Agenten und einem prüfenden Verifizierer ein zuverlässiges, wachsendes Intelligenzmodul bildet, das durch gepaarte Rückmeldungen und teilweise Historie ein reichhaltigeres Lernumfeld schafft. Bereits mit wenigen automatisch generierten DPO‑Paaren zeigt der Lernende Verbesserungen auf allen Benchmarks.