GateRA: Tokenbasierte Modulation für effizientes Feintuning von Parametern
GateRA ist ein neues Framework, das Parameter‑Effizientes Feintuning (PEFT) auf ein neues Level hebt. Während etablierte Methoden wie LoRA, DoRA und HiRA durch statische, tokenunabhängige Updates arbeiten, berücksichtigt GateRA die unterschiedliche Wichtigkeit und Schwierigkeit einzelner Tokens. Dadurch wird das Modell gezielt dort angepasst, wo es wirklich nötig ist.
Durch adaptive Gating‑Mechanismen in den PEFT‑Zweigen kann GateRA die Stärke der Updates tokenweise dynamisch steuern. Tokens, die bereits gut modelliert sind, erhalten kaum Änderungen, während herausfordernde Tokens stärker angepasst werden. Diese selektive Anpassung bewahrt das vortrainierte Wissen und nutzt die Kapazität effizient.
Visualisierungen zeigen, dass GateRA während des Prefill‑Phasen Updates für redundante Tokens automatisch dämpft, während es im Decodierungsmodus die Anpassung verstärkt. Ein zusätzliches, entropiebasiertes Regularisierungselement fördert nahezu binäre Gating‑Entscheidungen, was zu sparsamen und leicht interpretierbaren Anpassungen führt, ohne harte Schwellenwerte einzuführen.
Die theoretische Analyse demonstriert, dass GateRA einen weichen Gradient‑Maskierungs‑Effekt über den PEFT‑Pfad erzeugt, wodurch die Kontrolle über die Anpassung kontinuierlich und differenzierbar bleibt. In Experimenten auf mehreren Commonsense‑Reasoning‑Aufgaben zeigte GateRA verbesserte Leistungen und eine höhere Effizienz im Vergleich zu herkömmlichen PEFT‑Ansätzen.