Probabilistische Hash-Embeddings optimieren Online-Lernen Kategorischer Merkmale

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

In einer neuen Studie wird ein innovativer Ansatz vorgestellt, der das Online-Lernen von kategorischen Merkmalen in Streaming-Daten revolutioniert. Dabei steht die Herausforderung im Fokus, dass das Vokabular der Kategorien ständig wächst und sich verändert.

Traditionelle Hash-Embeddings, die deterministisch arbeiten, sind stark von der Reihenfolge der eingehenden Kategorien abhängig und neigen dazu, bereits gelernten Informationen zu vergessen. Dies führt in Online-Umgebungen zu einer Verschlechterung der Modellleistung.

Die Autoren schlagen stattdessen probabilistische Hash-Embeddings (PHE) vor. Hierbei werden die Hash-Embeddings als stochastische Variablen behandelt und mithilfe von Bayesian Online Learning schrittweise aus den Daten aktualisiert. Ein skalierbarer Inferenzalgorithmus ermöglicht die effiziente Aktualisierung der Posterior-Verteilungen für die Embeddings und weitere latente Variablen.

Der Ansatz bietet mehrere entscheidende Vorteile: Er kann ein sich ständig erweiterndes Vokabular handhaben, bleibt adaptiv gegenüber neuen Kategorien, ohne alte zu vergessen, und verwendet eine feste, begrenzte Anzahl von Parametern, die nicht mit der Anzahl der beobachteten Werte wächst. Zudem ist die Methode völlig reihenfolgeunabhängig.

Experimentelle Ergebnisse in Bereichen wie Klassifikation, Sequenzmodellierung und Empfehlungssystemen zeigen, dass PHE die Leistung gegenüber klassischen Hash-Embeddings deutlich steigert. Gleichzeitig bleibt der Speicherverbrauch extrem niedrig – die Modelle benötigen nur 2 bis 4 % der Speichergröße einer One‑Hot‑Tabelle.

Ähnliche Artikel