Tabellarische KI: Neue Studie entlarvt vermeintliche Generalisierung
Eine aktuelle Untersuchung auf arXiv hat die behauptete Generalisierung von Tabular Language Models (TLMs) in Frage gestellt. Die Autoren prüfen das Modell Tabula‑8B anhand von 165 Datensätzen aus dem UniPredict‑Benchmark.
Die Ergebnisse zeigen, dass binäre und kategoriale Klassifikationen kaum besser abschneiden als die Mehrheit‑Baseline, während die beeindruckende Gesamtleistung ausschließlich durch Quartilklassifikationen getrieben wird. In diesen Aufgaben liegt ein deutlicher Leistungszuwachs, der jedoch nicht auf echte tabellarische Intelligenz hinweist.
Ein weiterer Befund ist die umfangreiche Kontamination der Top‑Datensätze. Vollständige Überschneidungen zwischen Trainings- und Testdaten sowie task‑level Lecks, die herkömmliche Duplikatprüfungen umgehen, sind weit verbreitet. Diese Artefakte erklären einen großen Teil der scheinbaren Erfolge.
Interessanterweise konnte ein instruction‑tuned Modell ohne tabellarische Exposition 92,2 % der Standardklassifikationsleistung zurückgewinnen. Bei Quartilklassifikationen schließt die Format‑Vertrautheit 71,3 % der Lücke, wobei der verbleibende Teil auf kontaminierte Datensätze zurückzuführen ist.
Die Studie legt nahe, dass die angebliche Generalisierung von TLMs eher auf Evaluationsfehler zurückzuführen ist als auf echtes tabellarisches Verständnis. Die Autoren geben konkrete Empfehlungen zur Verbesserung der TLM‑Bewertung, um solche Artefakte künftig zu vermeiden.