FORESTLLM: LLMs stärken Random Forests für Few‑Shot-Tabellendaten

arXiv – cs.LG Original ≈2 Min. Lesezeit
Anzeige

In Bereichen wie Finanzen, Gesundheitswesen und wissenschaftlicher Forschung entscheiden sich immer häufiger auf Basis von Tabellen­daten. Doch wenn nur wenige gelabelte Beispiele zur Verfügung stehen, bleibt die effektive Nutzung dieser Daten ein zentrales Problem.

Traditionelle Entscheidungsbäume stoßen in solchen Few‑Shot‑Szenarien an ihre Grenzen, weil sie stark auf statistische Reinheitsmaße angewiesen sind, die bei knapper Supervision instabil werden und leicht überanpassen. Gleichzeitig nutzen direkte Anwendungen großer Sprachmodelle (LLMs) deren strukturelle Stärken nicht aus, was zu suboptimalen Ergebnissen führt.

Die neue Methode FORESTLLM verbindet die strukturellen Vorurteile von Entscheidungsforen mit der semantischen Denkfähigkeit von LLMs. Dabei wird das LLM ausschließlich während des Trainings eingesetzt – als „offline“ Modellgestalter, der reichhaltiges, kontextuelles Wissen in ein leichtgewichtiges, interpretierbares Forenmodell einbettet. Im Testbetrieb ist kein LLM mehr nötig.

Ein Kernmerkmal ist der semantische Split‑Kriterium: Das LLM bewertet potenzielle Teilungen anhand ihrer Kohärenz über gelabelte und ungelabelte Daten. Dadurch entstehen robustere, generalisierbarere Baumstrukturen, selbst bei sehr wenigen Trainingsbeispielen.

Des Weiteren bietet FORESTLLM einen einmaligen In‑Context‑Inference‑Mechanismus zur Stabilisierung der Blattknoten. Das LLM fasst den Entscheidungsweg und die unterstützenden Beispiele zu einer prägnanten, deterministischen Vorhersage zusammen und ersetzt damit verrauschte, empirische Schätzungen durch semantisch fundierte Ergebnisse.

Diese Kombination aus interpretierbarer Modellarchitektur und semantischer Tiefe verspricht, die Leistung von Random Forests in kritischen, datenarmen Szenarien deutlich zu erhöhen und damit neue Möglichkeiten für verantwortungsvolle Entscheidungsfindung zu eröffnen.

Ähnliche Artikel