Neues Deep Researcher-Modell übertrifft führende KI-Agents bei PhD-Forschung

Ein neues KI-System namens Deep Researcher, entwickelt von Forschern auf arXiv, hat bei einer internationalen Benchmark für Doktorandenforschung die bisherigen Spitzenreiter übertroffen. Das Modell nutzt zwei zentrale Innovationen: eine sequentielle Forschungsplan-Reflexion und einen Kandidaten-Crossover-Algorithmus.

Durch die sequentielle Planverfeinerung behält der Agent einen zentralen Globalen Forschungs-Kontext bei, kann den aktuellen Fortschritt zurückverfolgen, den Plan bewerten und bei Bedarf dynamisch anpassen. Diese flexible Vorgehensweise vermeidet die Wissenssilos, die bei parallelen Ansätzen häufig auftreten.

Der Kandidaten-Crossover-Algorithmus setzt mehrere große Sprachmodelle mit unterschiedlichen Parametern ein, um einen breiteren Suchraum abzudecken. Die Ergebnisse dieser Modelle werden zusammengeführt, um eine umfassende, faktenreiche Endantwort zu generieren. Der gesamte Prozess endet mit einer One-Shot-Berichtserstellung, die eine kohärente und dichte Dokumentation gewährleistet.

Die Leistung des Deep Researcher wurde anhand des DeepResearch Bench, einer weltweit anerkannten Messlatte mit 100 Doktorandenaufgaben, getestet. Das Modell erzielte einen Gesamtwert von 46,21 Punkten und übertraf damit führende Deep-Research-Agents wie Claude Researcher, Nvidia AIQ Research Assistant, Perplexity Research, Kimi Researcher und Grok Deeper Search.

Ähnliche Artikel

🍪 Cookie-Einstellungen