Baryzentrische Ausrichtung ermöglicht präzise Vergleich neuronaler Repräsentationen

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Der Vergleich von Repräsentationen in neuronalen Netzwerken ist bislang schwierig, weil Symmetrien wie beliebige Neuronenumordnungen oder Rotationen des Aktivationsraums die eigentliche Ähnlichkeit zwischen Modellen verschleiern. Mit dem neuen baryzentrischen Ausrichtungsrahmen wird dieses Problem gelöst: Durch das Eliminieren dieser Störsymmetrien entsteht ein universeller Einbettungsraum, der viele Modelle miteinander vergleicht.

Im Gegensatz zu bisherigen Ähnlichkeitsmaßen, die Beziehungen über ganze Stimulus-Sets zusammenfassen, definiert die baryzentrische Methode die Ähnlichkeit auf Ebene einzelner Stimuli. So lassen sich Eingaben identifizieren, die bei verschiedenen Modellen zu konvergenten oder divergenten Repräsentationen führen. Diese Fähigkeit ermöglicht es, systematische Eingangsmerkmale zu entdecken, die die Konvergenz oder Divergenz von Vision- und Sprachmodellen vorhersagen.

Der Ansatz wird nicht nur auf künstliche Netzwerke angewendet, sondern auch auf Gehirnrepräsentationen. Durch die Schaffung universeller Einbettungsräume für Gehirndaten verschiedener Personen und corticaler Regionen können Forscher nun auf Instanzebene vergleichen, wie stark die Repräsentationen in den verschiedenen Stufen der menschlichen visuellen Hierarchie übereinstimmen.

Ein weiteres Highlight: Die baryzentrische Ausrichtung funktioniert auch bei rein unimodalen Modellen. Durch die nachträgliche Ausrichtung in einen gemeinsamen Raum erreichen Bild-Text-Ähnlichkeitswerte, die menschlichen Kreuzmodalitätsurteilen sehr nahekommen und die Leistung von kontrastbasierten Vision‑Language-Modellen fast erreichen. Dies deutet darauf hin, dass selbst unabhängig erlernte Repräsentationen bereits eine ausreichende geometrische Struktur besitzen, um menschlich ausgerichtete, cross‑modal vergleichbare Ergebnisse zu liefern.

Ähnliche Artikel