Neues Relationales Foundation-Modell lernt aus synthetischen Daten
Relationale Datenbanken bilden das Rückgrat moderner Unternehmen, doch bislang fehlt ihnen ein echtes Foundation-Modell wie in Text- oder Bildverarbeitung. Der Grund liegt in der Seltenheit und dem privaten Charakter hochwertiger RDBs, die eine internetweite Vortrainierung unmöglich machen.
Um dieses Datenproblem zu lösen, präsentiert das Team von MuLabPKU das Modell RDB‑PFN. Inspiriert von Prior‑Data‑Fitted Networks (PFNs) nutzt es einen Relational Prior Generator, der unendlich viele synthetische RDBs erzeugt. Durch das Vortrainieren auf über 2 Millionen synthetischen Einzel‑ und Mehrtabellen‑Aufgaben erlernt RDB‑PFN sofortiges In‑Context‑Learning für jede neue Datenbank.
In Experimenten zeigte RDB‑PFN herausragende Few‑Shot‑Leistungen bei 19 realen relationalen Vorhersageaufgaben. Es übertraf sowohl graphbasierte als auch Einzel‑Tabellen‑Foundation‑Modelle – und das bei identischen DFS‑linearisierten Eingaben – dank einer schlanken Architektur und schneller Inferenz.
Der Code ist frei verfügbar unter https://github.com/MuLabPKU/RDBPFN.