Soft-Cluster-Anker verbessern selbstüberwachtes Sprachlernen in JEPA
Die neueste Forschung im Bereich der selbstüberwachten Sprachrepräsentationen zeigt, dass Joint Embedding Predictive Architectures (JEPA) zwar vielversprechend sind, aber ohne gezielte Regulierung zu einer Kollaps der Repräsentationen neigen. Um dieses Problem zu lösen, wurde GMM‑Anchored JEPA entwickelt, das einen einmalig auf Log‑Mel‑Spektrogrammen trainierten Gaußschen Mischungsmodell (GMM) nutzt. Die dabei erhaltenen weichen Posterior‑Werte werden als feste Hilfstargets während des gesamten Trainings eingesetzt.