Rogue One: LLM-Agenten revolutionieren Feature‑Engineering für tabellarische Daten
Die Leistung von Machine‑Learning‑Modellen auf tabellarischen Datensätzen hängt entscheidend von hochwertiger Feature‑Engineering ab. Zwar haben große Sprachmodelle (LLMs) das Potenzial gezeigt, diesen Prozess zu automatisieren, jedoch bleiben bestehende Ansätze oft durch monolithische Architekturen, vereinfachte quantitative Rückmeldungen und die fehlende systematische Einbindung von Fachwissen eingeschränkt.
In diesem Zusammenhang präsentiert die Studie „Rogue One“ ein neuartiges, LLM‑basiertes Multi‑Agenten‑Framework. Drei spezialisierte Agenten – Scientist, Extractor und Tester – arbeiten iterativ zusammen, um Vorhersage‑Features zu entdecken, zu generieren und zu validieren. Durch die dezentrale Zusammenarbeit können die Agenten flexibel auf neue Erkenntnisse reagieren und gleichzeitig die Qualität der erzeugten Features sicherstellen.
Ein wesentlicher Fortschritt liegt in der Einführung eines qualitativen Feedback‑Mechanismus sowie einer „Flooding‑Pruning“-Strategie, die eine dynamische Balance zwischen Exploration und Ausnutzung von Features ermöglicht. Zusätzlich integriert Rogue One ein Retrieval‑Augmented‑Generation‑System, das externes Fachwissen aktiv nutzt. Das Ergebnis sind Features, die nicht nur statistisch stark sind, sondern auch semantisch sinnvoll und interpretierbar bleiben.
Die experimentellen Ergebnisse zeigen, dass Rogue One die aktuellen Spitzenreiter bei einer umfangreichen Testreihe aus 19 Klassifikations‑ und 9 Regressionsdatensätzen deutlich übertrifft. Darüber hinaus demonstriert das System die Fähigkeit, neue, prüfbare Hypothesen zu generieren – beispielsweise die Identifikation eines potenziellen Biomarkers im Myokard‑Datensatz – und unterstreicht damit seinen Wert als Werkzeug für wissenschaftliche Entdeckungen.