TabDistill: Transformer‑Wissen in kompakte Netze für Few‑Shot Tabellendaten
Forscher haben eine neue Methode namens TabDistill vorgestellt, die das Vorwissen komplexer Transformer‑Modelle in schlanke neuronale Netze überträgt. Ziel ist es, die hohe Leistungsfähigkeit von Transformers bei wenigen Trainingsbeispielen zu erhalten, ohne die enorme Parameterzahl und Rechenkomplexität zu belasten.
Transformer‑basierte Modelle haben sich in der Tabellendatenanalyse als überlegen gegenüber klassischen Ansätzen wie neuronalen Netzen, XGBoost oder logistischer Regression erwiesen, wenn nur wenige Datenpunkte zur Verfügung stehen. Der Nachteil ist jedoch, dass diese Modelle sehr groß und ressourcenintensiv sind. TabDistill löst dieses Problem, indem es die vortrainierten Gewichte und das Wissen der Transformer in ein kompakteres Netzwerk distilliert, das mit vergleichbarer oder sogar besserer Genauigkeit arbeitet.
In Experimenten übertraf die distillierte Architektur die herkömmlichen Baselines bei gleichem Trainingsumfang und konnte in einigen Fällen sogar die ursprünglichen Transformer‑Modelle schlagen. Damit bietet TabDistill eine effiziente Lösung für die Klassifikation von Tabellendaten im Few‑Shot‑Regime, die sowohl leistungsstark als auch ressourcenschonend ist.