Bidirektionale Pruning‑Regrowth: Mehr Sparsity ohne Qualitätsverlust
Model‑Pruning ist seit Jahren ein bewährtes Verfahren zur Kompression von neuronalen Netzen. Durch gezieltes Entfernen von Gewichten lassen sich Modelle deutlich kleiner machen, ohne die Genauigkeit wesentlich zu beeinträchtigen. Doch sobald die Sparsity einen kritischen Schwellenwert überschreitet, sinkt die Leistung plötzlich stark – ein Phänomen, das die maximale Kompression begrenzt und viele Hardware‑Plattformen vor ein Problem stellt.