POP: Online-Strukturelles Pruning beschleunigt große Foundation-Modelle
Die neue Methode POP (Partition-guided Online Pruning) ermöglicht es, große Foundation‑Modelle (LFMs) während der Inferenz dynamisch zu optimieren. Durch kontextabhängiges, online‑gestütztes Pruning werden nur die wirklich relevanten Modellkanäle aktiv gehalten, während unwichtige Gewichte sofort entfernt werden – und das ohne zusätzlichen Rechenaufwand.