Neues Super-Netzwerk für skalierbare Vision Transformers: Wissensdichte-Stratifizierung

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Die gleichzeitige Schulung und Bereitstellung mehrerer Vision‑Transformer‑Modelle für unterschiedliche Ressourcenbeschränkungen ist bislang teuer und ineffizient. Forscher haben daher ein neues Konzept entwickelt: ein vortrainiertes ViT wird in ein „stratifiziertes Wissensdichte‑Supernetzwerk“ umgewandelt, in dem das Wissen hierarchisch über die Gewichte verteilt ist. Dadurch lassen sich beliebige Teilnetzwerke extrahieren, die für jede Modellgröße maximalen Wissensgehalt behalten.

Ein zentraler Baustein ist WPAC – Gewichtete PCA für Aufmerksamkeitskontraktion. Durch token‑weise gewichtete Hauptkomponentenanalyse werden die wichtigsten Merkmale in den Zwischenfeatures identifiziert und in Form von Transformations‑ und Inversen Matrizen in benachbarte Schichten injiziert. So bleibt die ursprüngliche Netzwerkfunktion erhalten, während das Wissen auf eine kompakte Menge kritischer Gewichte konzentriert wird.

Zur weiteren Förderung der Wissensstratifizierung wurde PIAD – Progressiver, wichtigkeitsorientierter Dropout – eingeführt. Dieses Verfahren bewertet schrittweise die Wichtigkeit von Gewichtengruppen, aktualisiert eine Dropout‑Liste und trainiert das Supernetzwerk unter diesem Dropout‑Regime. Das Ergebnis ist ein starkes, alternatives Verfahren zu den derzeit führenden Methoden der Modellkompression und -erweiterung.

Experimentelle Ergebnisse zeigen, dass WPAC bestehende Pruning‑Kriterien in der Wissenskonzentration übertrifft und die Kombination mit PIAD eine überzeugende Alternative zu aktuellen Techniken darstellt.

Ähnliche Artikel