Robuste Tabellarische Basismodelle: Adversarial Training mit synthetischen Daten

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

In den letzten Jahren hat sich die Entwicklung von tabellarischen Basismodellen (TFMs) rasant beschleunigt. Diese Modelle zeigen ein starkes Potenzial, klassische Machine‑Learning‑Methoden für strukturierte Daten zu übertreffen. Ein entscheidender Befund ist, dass TFMs vollständig auf synthetisch erzeugten Datensätzen vortrainiert werden können, was neue Möglichkeiten eröffnet, Datengeneratoren gezielt zu gestalten.

Frühere Arbeiten konzentrierten sich vor allem darauf, qualitativ hochwertige Prioritäten für Generatoren zu definieren, um die Gesamtleistung des Vortrainings zu steigern. Unser Ansatz geht einen Schritt weiter: Durch die Parametrisierung der Generatorverteilung können wir einen adversarialen Robustheitsansatz verfolgen. Während des Trainings wird der Generator so angepasst, dass er Datensätze hervorhebt, die für das Modell besonders herausfordernd sind.

Wir führen dazu ein Maß für die optimale Lücke ein, das die Differenz zwischen der Leistung eines TFM und der bestmöglichen Leistung, wie sie von starken Baselines wie XGBoost, CatBoost und Random Forests erreicht wird, quantifiziert. Aufbauend auf dieser Idee stellen wir Robust Tabular Foundation Models (RTFM) vor – ein modellagnostisches Framework für adversariales Training.

In Tests mit dem TabPFN V2‑Klassifikator erhöht RTFM die Benchmark‑Leistung um bis zu 6 % im durchschnittlich normalisierten AUC, verglichen mit dem ursprünglichen TabPFN und anderen Baseline‑Algorithmen. Dabei werden weniger als 100 000 zusätzliche synthetische Datensätze benötigt. Diese Ergebnisse unterstreichen einen vielversprechenden neuen Ansatz für gezieltes adversariales Training und Feintuning von TFMs ausschließlich mit synthetischen Daten.

Ähnliche Artikel