Directional Neural Collapse erklärt Few-Shot-Transfer in SSL
In einer neuen Studie auf arXiv wird gezeigt, wie selbstüberwachte Lernmodelle mit nur wenigen gelabelten Beispielen in einer Vielzahl von Aufgaben überzeugen können. Der Schlüssel liegt laut den Autoren in einer einzigen geometrischen Größe – dem sogenannten directional CDNV (Decision‑Axis Variance). Diese Messgröße beschreibt die Streuung der Daten entlang der Achsen, die die Klassen voneinander trennen.
Die Forscher haben bewiesen, dass ein kleiner directional CDNV sowohl die Leistung bei Few‑Shot‑Transfer innerhalb einer Aufgabe als auch die geringe Interferenz zwischen vielen Aufgaben erklärt. Durch präzise, nicht asymptotische Generalisierungsgrenzen für Mehrklassen‑Klassifikationen wird deutlich, dass die Hauptkomponente dieser Grenzen der directional CDNV ist. Die Grenzen trennen sauber die inhärente Streuung der Entscheidungsachsen von Fehlern bei der Schätzung der Klassenmittelwerte.
Weiterhin wird die Verbindung zwischen Entscheidungsachsen‑Kollaps und Multitask‑Geometrie hergestellt: Bei unabhängigen, ausgeglichenen Labelings zwingt ein geringer directional CDNV die Entscheidungsachsen nahezu orthogonal aneinander. Das ermöglicht einer einzigen Repräsentation, zahlreiche Aufgaben mit minimaler Interferenz zu unterstützen. Empirische Tests über verschiedene SSL‑Ziele hinweg zeigen, dass der directional CDNV während des Pretrainings kollabiert, während der klassische CDNV hoch bleibt. Die theoretischen Grenzen folgen dabei eng dem tatsächlichen Few‑Shot‑Fehler bei praktischen Shot‑Größen.
Auf synthetischen Multitask‑Datensätzen wurde zusätzlich bestätigt, dass SSL‑Modelle Repräsentationen lernen, deren Entscheidungsachsen nahezu orthogonal sind. Der zugehörige Code sowie die Projektseite sind unter https://dlfundamentals.github.io/directional-neural-collapse/ verfügbar.