AgentCPM-Report: Leichtgewichtiger, leistungsstarker lokaler Deep‑Research-Agent

In einer neuen Veröffentlichung auf arXiv (2602.06540v1) wird ein innovativer Ansatz vorgestellt, der die Erstellung tiefgehender Forschungsberichte ohne Abhängigkeit von teuren, cloudbasierten Modellen ermöglicht. Der Autor*innen zufolge stellen die derzeitigen „Plan‑then‑Write“-Methoden ein großes Hindernis dar, weil die Qualität des Endergebnisses stark von der Präzision des ersten Gliederungsentwurfs abhängt – ein Prozess, der selbst für moderne Sprachmodelle anspruchsvoll ist.

Die Lösung, AgentCPM-Report, kombiniert ein leichtgewichtiges 8‑Billionen‑Parameter-Modell mit einem neuen Framework, das den menschlichen Schreibprozess nachahmt. Durch die sogenannte Writing As Reasoning Policy (WARP) kann das Modell während des Schreibens seine Gliederung dynamisch anpassen. Dabei wechselt es zwischen evidenzbasiertem Entwurf und forschungsgetriebenem Vertiefen, um Informationen zu sammeln, Wissen zu verfeinern und die Gliederung iterativ zu verbessern.

Um kleinen Modellen diese Fähigkeiten zu verleihen, wurde eine dreistufige Agentic‑Training‑Strategie entwickelt: ein kalter Start, atomare Skill‑RL‑Schritte und schließlich ein ganzheitliches Pipeline‑RL. In umfangreichen Tests auf DeepResearch Bench, DeepConsult und DeepResearch Gym übertrifft AgentCPM-Report führende, geschlossene Systeme und erzielt dabei signifikante Verbesserungen in der Tiefe und Qualität der gewonnenen Erkenntnisse.

Ähnliche Artikel

🍪 Cookie-Einstellungen