GovBench: Benchmark für LLM-Agenten in realen Daten‑Governance‑Workflows

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Die Qualität, Sicherheit und Compliance von Daten sind für die Skalierung moderner KI‑Entwicklungen entscheidend. Daten‑Governance sorgt dafür, dass diese Anforderungen durch klare Richtlinien und Standards erfüllt werden.

In den letzten Jahren haben große Sprachmodelle (LLMs) vielversprechende Ansätze gezeigt, um Daten‑Governance zu automatisieren – sie übersetzen Nutzerabsichten in ausführbaren Transformationscode. Doch bisherige Benchmarks konzentrieren sich meist auf Code‑Snippets oder hochrangige Analysen und greifen nicht die eigentliche Herausforderung auf: die Richtigkeit und Qualität der Daten selbst zu sichern.

Um diese Lücke zu schließen, wurde GovBench entwickelt. Das Benchmark‑Set umfasst 150 Aufgaben, die auf realen Fallstudien basieren. Durch eine neuartige „reversed‑objective“-Methodik werden realistische Störungen simuliert, während strenge Metriken die Zuverlässigkeit des gesamten Pipelines bewerten.

Die Analyse von GovBench zeigt, dass aktuelle Modelle bei komplexen, mehrstufigen Workflows noch stark nachbessern müssen und keine robusten Fehler‑Korrekturmechanismen besitzen.

Als Antwort darauf wurde DataGovAgent vorgestellt – ein Framework mit einer Planner‑Executor‑Evaluator‑Architektur. Es kombiniert constraint‑basierte Planung, retrieval‑augmented Generation und sandbox‑basierte, feedback‑gestützte Debugging‑Schleifen.

Experimentelle Ergebnisse belegen, dass DataGovAgent den durchschnittlichen Task‑Score (ATS) bei komplexen Aufgaben von 39,7 auf 54,9 steigert und die Anzahl der Debugging‑Iteration um über 77,9 % reduziert, verglichen mit generischen Baselines.

Ähnliche Artikel