MeG: Dynamische Gewichtsgenerierung für massives, kostengünstiges LLM-Editieren
In der Forschung zur Wissensbearbeitung (KE) geht es darum, Wissen in großen Sprachmodellen (LLMs) zu verändern, ohne das gesamte Modell neu zu trainieren. Dabei stehen drei zentrale Qualitätskriterien im Fokus: Zuverlässigkeit, Allgemeingültigkeit und Lokalisierung der Änderungen. Traditionell ist es schwierig, diese Kriterien bei umfangreichen Modifikationen zu erfüllen.
Die neue Methode namens Massive Editing for LLMs (MeG) löst dieses Problem, indem sie einen dynamischen Gewichtsnerv an ausgewählten Schichten des Modells anfügt. Ein Diffusionsmodell erzeugt anschließend die Gewichte dieses Neurons bedingt auf die jeweilige Eingabeanfrage. Durch die Einfügung nur eines solchen Neurons können umfangreiche Wissensänderungen effizient umgesetzt werden.
Experimentelle Ergebnisse zeigen, dass MeG die Leistung bei großen Wissensbearbeitungsaufgaben deutlich steigert. Besonders hervorzuheben ist die erhebliche Verbesserung der Lokalisierung, die sich in einem hohen absoluten Wertanstieg des entsprechenden Indexes widerspiegelt. Damit demonstriert MeG die Vorteile seiner Ansatzweise gegenüber bestehenden Techniken.