Neues Optimierungsverfahren vereint Training und Modellfusion effizient

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

In der aktuellen Forschung werden große neuronale Netzwerke und die Fusion von aufgaben­spezifischen Modellen häufig getrennt betrachtet, obwohl beide Prozesse dieselbe Herausforderung – die Schätzung von Parameter‑Wichtigkeit – teilen. Traditionell werden Kurvatur‑Informationen während des Trainings berechnet, anschließend verworfen und für die Modellfusion erneut ermittelt, was unnötige Rechen­ressourcen beansprucht und wertvolle Trajektorien‑Daten verschwenden.

Die vorgestellte Methode löst dieses Problem, indem sie während des Trainings faktorisierten Momentum und Kurvatur‑Statistiken beibehält und diese anschließend für eine geometrie‑bewusste Modellzusammenführung nutzt. Durch die Wiederverwendung dieser Daten wird die Speicher­effizienz auf dem Niveau modernster Ansätze gehalten, während gleichzeitig Aufgaben‑Salienz‑Scores akkumuliert werden, die eine Kurvatur‑basierte Fusion ohne nachträgliche Fisher‑Berechnung ermöglichen.

Für nicht‑konvexe Ziel­funktionen liefert die Arbeit konvergente Garantien, wobei der Approximation‑Fehler durch die Abnahme der Singulärwert‑Gradienten begrenzt ist. Der Ansatz zeigt rank‑invariante Konvergenz und übertrifft bestehende Low‑Rank‑Optimierer in Bezug auf die Robustheit gegenüber Hyper­parameter‑Einstellungen.

Auf natürlichen Sprachverarbeitungs‑Benchmarks übertrifft die Kurvatur‑basierte Parameter‑Auswahl bei allen Sparsitäts­stufen die reinen Magnituden‑Baselines, und die Multi‑Task‑Fusion liefert zusätzliche Verbesserungen gegenüber starken Vergleichsmodellen. Durch die Behandlung der Optimierungs­trajektorie als wiederverwendbare Ressource eliminiert die Methode redundante Berechnungen und ermöglicht eine principien­basierte Modellzusammenstellung.

Ähnliche Artikel