Neuer Bayesianischer Klassifikator nutzt neuronale Feature‑Darstellungen

arXiv – cs.LG Original ≈2 Min. Lesezeit
Anzeige

In der Klassifikation von Tabellen­daten haben Bayessche Netzwerk­klassifikatoren lange Zeit überzeugt, weil sie schnell und speichereffizient arbeiten und gleichzeitig leicht zu erklären sind. Ihre Leistung wird jedoch durch die Explosion der Parameter und die damit verbundene Daten­sparsität stark eingeschränkt. Dadurch können sie nur geringe Feature‑Abhängigkeiten modellieren und haben Schwierigkeiten, die Wahrscheinlichkeiten komplexer realer Daten zu extrapolieren.

Die neue Studie schlägt ein völlig neues Paradigma vor: anstelle von klassischen Parametern werden für jeden Feature‑Wert sogenannte Verteilungs­darstellungen gelernt – ähnlich den Wort‑Embeddings in der Sprachverarbeitung oder den Graph‑Embeddings in Netzwerkanalysen. Diese Darstellungen fassen die semantische Nähe zwischen verschiedenen Features zusammen, indem sie die beobachteten Ko‑Vorkommens­muster in den Trainingsdaten nutzen. Dadurch kann das Modell die Auftretens­wahrscheinlichkeiten für neue Test‑Beispiele zuverlässig extrapolieren.

Als konkretes Beispiel wird der K‑Abhängigkeits‑Bayessche Klassifikator (KDB) neu interpretiert und in eine neuronale Version namens NeuralKDB überführt. Ein spezielles neuronales Netzwerk lernt die Verteilungs­darstellungen der Feature‑Werte und parametrisiert die bedingten Wahrscheinlichkeiten zwischen abhängigen Features. Ein effizienter SGD‑Algorithmus trainiert das Modell, sodass die Komplexität nicht unnötig steigt.

Die umfangreichen Experimente auf 60 UCI‑Datensätzen zeigen, dass NeuralKDB hochgradige Feature‑Abhängigkeiten besser erfasst und die Klassifikationsleistung deutlich über den bisherigen Bayesschen Ansätzen liegt. Damit eröffnet die Arbeit einen vielversprechenden Weg, die Grenzen herkömmlicher Bayesscher Netzwerke zu überwinden und komplexe Daten zuverlässig zu klassifizieren.

Ähnliche Artikel