AIRA_2: Durchbruch bei KI‑Forschungsagenten

Kernaussagen

Das nimmst du aus dem Beitrag mit

In einer kürzlich veröffentlichten Studie wurden drei zentrale Leistungsengpässe von KI‑Forschungsagenten identifiziert: Erstens limitiert die synchrone Ausführung auf e…
Zweitens führt die Auswahl von Modellen anhand von Validierungsdaten zu einer Generalisierungslücke, die die Leistung bei längeren Suchläufen verschlechtert.
Drittens begrenzt die feste, ein‑Runde‑LLM‑Architektur die maximale Suchleistung.

In einer kürzlich veröffentlichten Studie wurden drei zentrale Leistungsengpässe von KI‑Forschungsagenten identifiziert: Erstens limitiert die synchrone Ausführung auf einer einzelnen GPU die Stichprobenrate und damit die Effektivität von Suchalgorithmen. Zweitens führt die Auswahl von Modellen anhand von Validierungsdaten zu einer Generalisierungslücke, die die Leistung bei längeren Suchläufen verschlechtert. Drittens begrenzt die feste, ein‑Runde‑LLM‑Architektur die maximale Suchleistung.

Um diese Probleme zu lösen, präsentiert die Arbeit AIRA_2, das auf drei innovativen Architekturelementen basiert. Ein asynchroner Multi‑GPU‑Worker‑Pool erhöht die Experimentdurchsatz linear, ein Hidden Consistent Evaluation‑Protokoll liefert ein zuverlässiges Bewertungssignal, und ReAct‑Agenten passen ihre Aktionen dynamisch an und debuggen interaktiv. Diese Kombination ermöglicht eine deutlich höhere Effizienz und Flexibilität bei der KI‑Entwicklung.

Auf dem Benchmark MLE‑bench‑30 erreichte AIRA_2 einen durchschnittlichen Percentile‑Rank von 71,8 % nach 24 Stunden – ein Fortschritt gegenüber dem vorherigen Bestwert von 69,9 %. Nach 72 Stunden stieg die Leistung auf 76,0 %. Ablationsstudien zeigen, dass jeder einzelne Baustein notwendig ist und dass die zuvor berichtete „Overfitting‑Problematik“ eher auf Rausch‑Evaluationen als auf echtes Memorieren zurückzuführen war.

Einordnen in 60 Sekunden