POP: Online-Strukturelles Pruning beschleunigt große Foundation-Modelle
Die neue Methode POP (Partition-guided Online Pruning) ermöglicht es, große Foundation‑Modelle (LFMs) während der Inferenz dynamisch zu optimieren. Durch kontextabhängiges, online‑gestütztes Pruning werden nur die wirkl…