ARC Prize 2025: Neue Erkenntnisse aus dem ARC-AGI-2 Wettbewerb

arXiv – cs.AI Original ≈2 Min. Lesezeit
Anzeige

Der ARC-AGI-Benchmark dient als entscheidendes Messinstrument für Few‑Shot‑Generalisation bei neuen Aufgaben. Im Jahr 2025 richtete sich die globale ARC Prize‑Wettbewerb auf das neu veröffentlichte ARC‑AGI‑2‑Datenset, das im Vergleich zum Vorgänger deutlich komplexere Aufgaben enthält.

Die Kaggle‑Wettbewerb zog 1.455 Teams und 15.154 Einreichungen an. Der höchste erreichte Score lag bei 24 % auf dem privaten Evaluations‑Set von ARC‑AGI‑2. Gleichzeitig verdoppelten sich die Paper‑Einreichungen nahezu im Vergleich zum Vorjahr auf 90, was das wachsende Interesse an fluider Intelligenz und abstraktem Denken widerspiegelt.

Ein zentrales Thema des Jahres 2025 ist der „Refinement‑Loop“ – ein iterativer Programm‑Optimierungszyklus, der von einem Feedback‑Signal geleitet wird. Solche Loops treten in verschiedenen Formen auf, etwa in evolutionären Programmsynthese‑Ansätzen oder in Anwendungsschichten von kommerziellen KI‑Systemen. Auch im Gewichtungsraum lassen sich Refinement‑Loops realisieren, wie die jüngsten Zero‑Pretraining‑Deep‑Learning‑Methoden zeigen, die mit bemerkenswert kleinen Netzwerken (7 M Parameter) konkurrenzfähige Leistungen erzielen.

Gleichzeitig berichteten vier führende KI‑Labore – Anthropic, Google DeepMind, OpenAI und xAI – in ihren öffentlichen Modell‑Cards über ihre ARC‑AGI‑Leistungen im Jahr 2025, wodurch ARC‑AGI als Branchen‑Standard‑Benchmark für KI‑Reasoning etabliert wurde. Unsere Analyse zeigt jedoch, dass die aktuelle Spitzenleistung im KI‑Reasoning immer noch stark durch die Abdeckung von Wissen begrenzt ist, was neue Formen von Benchmark‑Kontaminationen hervorruft.

In diesem Beitrag werden die best‑performenden Methoden systematisch untersucht und ihre Stärken sowie die bestehenden Grenzen analysiert.

Ähnliche Artikel