Neues Optimierungsverfahren vereint Training und Modellfusion effizient
In der aktuellen Forschung werden große neuronale Netzwerke und die Fusion von aufgabenspezifischen Modellen häufig getrennt betrachtet, obwohl beide Prozesse dieselbe Herausforderung – die Schätzung von Parameter‑Wichtigkeit – teilen. Traditionell werden Kurvatur‑Informationen während des Trainings berechnet, anschließend verworfen und für die Modellfusion erneut ermittelt, was unnötige Rechenressourcen beansprucht und wertvolle Trajektorien‑Daten verschwenden.
Die vorgestellte Methode löst dieses Problem, indem sie während des Trainings faktorisierten Momentum und Kurvatur‑Statistiken beibehält und diese anschließend für eine geometrie‑bewusste Modellzusammenführung nutzt. Durch die Wiederverwendung dieser Daten wird die Speichereffizienz auf dem Niveau modernster Ansätze gehalten, während gleichzeitig Aufgaben‑Salienz‑Scores akkumuliert werden, die eine Kurvatur‑basierte Fusion ohne nachträgliche Fisher‑Berechnung ermöglichen.
Für nicht‑konvexe Zielfunktionen liefert die Arbeit konvergente Garantien, wobei der Approximation‑Fehler durch die Abnahme der Singulärwert‑Gradienten begrenzt ist. Der Ansatz zeigt rank‑invariante Konvergenz und übertrifft bestehende Low‑Rank‑Optimierer in Bezug auf die Robustheit gegenüber Hyperparameter‑Einstellungen.
Auf natürlichen Sprachverarbeitungs‑Benchmarks übertrifft die Kurvatur‑basierte Parameter‑Auswahl bei allen Sparsitätsstufen die reinen Magnituden‑Baselines, und die Multi‑Task‑Fusion liefert zusätzliche Verbesserungen gegenüber starken Vergleichsmodellen. Durch die Behandlung der Optimierungstrajektorie als wiederverwendbare Ressource eliminiert die Methode redundante Berechnungen und ermöglicht eine principienbasierte Modellzusammenstellung.