ReFuGe: Feature-Generierung für Vorhersagen in relationalen DBs mit LLM-Agenten
Relationale Datenbanken bilden das Rückgrat zahlreicher Webanwendungen, indem sie Daten über mehrere miteinander verknüpfte Tabellen hinweg verwalten. Während die meisten Arbeiten sich auf reine Abrufaufgaben konzentrieren, gewinnt die Vorhersageanalyse auf solchen Datenbanken zunehmend an Bedeutung.
Die Herausforderung besteht darin, aussagekräftige Features zu erzeugen, die die Vorhersageleistung verbessern. Dazu muss über komplexe Schemata nachgedacht und ein riesiger Kombinationsraum von möglichen Features durchsucht werden – und das ohne explizite Anleitung.
ReFuGe löst dieses Problem mit einem agentenbasierten Ansatz, der drei spezialisierte Large‑Language‑Modelle einsetzt: ein Schema‑Auswahlagent identifiziert die relevanten Tabellen und Spalten, ein Feature‑Generierungsagent erstellt vielfältige Kandidaten aus dem ausgewählten Schema, und ein Feature‑Filterungsagent bewertet und behält die vielversprechendsten Features durch reasoning‑basierte und validierungsbasierte Filterung. Der Prozess wiederholt sich in einem iterativen Feedback‑Loop, bis die Leistung konvergiert.
Experimentelle Tests auf etablierten relationalen Datenbank‑Benchmarks zeigen, dass ReFuGe die Vorhersagegenauigkeit in einer Vielzahl von Aufgaben deutlich steigert.
Der zugehörige Code sowie die Datensätze sind frei verfügbar unter https://github.com/K-Kyungho/REFUGE.