Neue Methode: Multiplikative Orthogonale Sequenzbearbeitung für Sprachmodelle

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Wissens‑Bearbeitung von großen Sprachmodellen (LLMs) soll intern Wissen ändern, ohne die übrigen Fähigkeiten zu beeinträchtigen. Bisher dominieren additive Verfahren, bei denen eine Update‑Matrix an die ursprünglichen Parameter angehängt wird. Untersuchungen zeigen jedoch, dass diese Vorgehensweise die numerische Stabilität – etwa die Bedingungszahl und den Normwert – verschlechtert, was besonders bei sequenziellen Bearbeitungen die Leistung und die allgemeinen Fähigkeiten der Modelle mindert.

Die Autoren analysieren das Problem aus statistischer und mathematischer Sicht und stellen fest, dass die Multiplikation der ursprünglichen Parametermatrix mit einer orthogonalen Matrix die numerische Stabilität unverändert lässt. Auf dieser Erkenntnis basiert die neue Methode MOSE (Multiplicative Orthogonal Sequential Editing). Dabei wird die Wissensaktualisierung zunächst in multiplikativer Form abgeleitet, das neue Wissen in eine orthogonale Matrix eingebettet und anschließend mit der ursprünglichen Parametermatrix multipliziert.

Durch diese Vorgehensweise bleibt die Stabilität der bearbeiteten Matrix erhalten, sodass die Bearbeitungsleistung und die allgemeinen Fähigkeiten der Modelle nicht leiden. In systematischen Vergleichen mit mehreren bestehenden Bearbeitungsmethoden zeigte MOSE bei drei unterschiedlichen LLMs eine bessere Performance sowohl bei der gezielten Wissensänderung als auch bei der Erhaltung der allgemeinen Modellfähigkeiten.

Ähnliche Artikel