Word2Vec entschlüsselt: Wie Lernprozesse zu PCA‑basierten Embeddings führen
In einer bahnbrechenden Studie wird endlich erklärt, was Word2Vec wirklich lernt und wie es dies tut. Die Autoren zeigen, dass das Lernproblem in realistischen, praktischen Regimen auf eine ungewichtete Least‑Squares‑Matrixfaktorisierung reduziert werden kann. Durch die Lösung der Gradientenfluss‑Dynamik in geschlossener Form ergibt sich, dass die endgültigen Wortrepräsentationen exakt dem Ergebnis einer Hauptkomponentenanalyse (PCA) entsprechen.