Monkey Jump: Effizientes Multi-Task-Lernen ohne zusätzliche Parameter
Die neueste Veröffentlichung auf arXiv (2601.06356v1) stellt Monkey Jump vor – eine Methode, die die Vorteile von Mixture-of-Experts (MoE) für parameter‑effizientes Fine‑Tuning nutzt, ohne zusätzliche trainierbare Parameter einzuführen. Dadurch bleibt das Ziel der Effizienz erhalten, während gleichzeitig eine token‑weise Spezialisierung ermöglicht wird.
Im Gegensatz zu herkömmlichen MoE‑Ansätzen, die neue Adapter als Experten und Router benötigen, betrachtet Monkey Jump die bereits vorhandenen Adapter in jedem Transformer‑Block (z. B. Query, Key, Value, Up‑ und Down‑Projektionen) als implizite Experten. Tokens werden mithilfe von k‑Means‑Clustering mit exponentiell gleitenden Mittelwerten der Clusterzentren verteilt – ein Verfahren, das keine Gradienten oder lernbaren Parameter erfordert.
Die Autoren zeigen theoretisch, dass token‑weise Routing die Ausdruckskraft erhöht und die Gefahr von Cancel‑Out‑Effekten zwischen gemeinsamen Adaptern reduziert. In umfangreichen Multi‑Task‑Experimenten – 14 Text‑, 14 Bild‑ und 19 Videobenchmarks – erreicht Monkey Jump eine Leistung, die mit MoE‑basierten Methoden vergleichbar ist, jedoch 7 bis 29 mal weniger trainierbare Parameter nutzt, bis zu 48 % weniger Speicher verbraucht und die Trainingszeit um 1,5 bis 2 Mal verkürzt.
Monkey Jump ist architekturunabhängig und lässt sich in jede adapterbasierte, parameter‑effiziente Fine‑Tuning‑Strategie integrieren, wodurch es eine vielseitige und ressourcenschonende Lösung für komplexe Multi‑Task‑Lernaufgaben darstellt.