DSGym: Neues Framework zur Bewertung und Schulung von Data‑Science-Agenten

arXiv – cs.AI Original ≈2 Min. Lesezeit
Anzeige

Die Forschung im Bereich Data‑Science-Agenten hat ein neues, umfassendes Werkzeug erhalten: DSGym. Dieses Framework soll die bisher fragmentierten und unzureichenden Benchmarks ersetzen, indem es ein standardisiertes, modulare Umfeld für die Bewertung und das Training von Agenten bietet.

Aktuelle Benchmarks leiden unter mehreren gravierenden Mängeln. Die Bewertungsschnittstellen sind zersplittert, was den Vergleich zwischen verschiedenen Tests erschwert. Zudem decken sie nur einen engen Aufgabenbereich ab und fehlen an einer soliden Datenbasis. In vielen Fällen lassen sich Aufgaben sogar ohne Zugriff auf die eigentlichen Daten lösen, was die Aussagekraft der Ergebnisse stark mindert.

DSGym begegnet diesen Problemen, indem es ein selbstständiges Ausführungsumfeld schafft, in dem Agenten echte Datenanalysen durchführen können. Die modulare Architektur erleichtert das Hinzufügen neuer Aufgaben, Agenten-Templates und Werkzeuge, wodurch das System ständig erweitert werden kann. Die DSGym‑Tasks bündeln und verfeinern bestehende Benchmarks durch Qualitäts- und Kurzschlussfilterung. Darüber hinaus werden die Bereiche Bioinformatik (DSBio) und Vorhersageaufgaben (DSPredict) mit anspruchsvollen, datenbasierten Aufgaben aus Computer Vision, Molekularvorhersage und Einzelzellperturbation ergänzt.

Ein weiteres Highlight ist die Möglichkeit, Agenten durch einen auf Ausführung verifizierten Daten-Synthese‑Pipeline zu trainieren. In einer Fallstudie wurde ein 2.000‑Beispiel‑Trainingsdatensatz erstellt und ein 4‑Billionen‑Parameter‑Modell in DSGym trainiert, das die Leistung von GPT‑4o auf standardisierten Analysebenchmarks übertrifft.

Mit DSGym wird ein rigoroses, end‑zu‑end‑Messverfahren ermöglicht, das prüft, ob Agenten planen, umsetzen und ihre Datenanalysen in realen Umgebungen validieren können. Diese Entwicklung markiert einen bedeutenden Schritt in Richtung verlässlicher und reproduzierbarer KI‑gestützter Datenwissenschaft.

Ähnliche Artikel