SimMerge: Automatisierte Auswahl von Merge-Operatoren für große Sprachmodelle
Die Kombination mehrerer großer Sprachmodelle zu einem einzigen, leistungsfähigen System ist ein zentrales Thema in der KI-Forschung. Dabei gilt es, die richtige Merge‑Operatoren, die passenden Modelle und die optimale Reihenfolge zu wählen – ein Prozess, der bislang oft mit teuren, ressourcenintensiven Experimenten verbunden war.
Mit SimMerge wird dieser Aufwand drastisch reduziert. Das System nutzt kostengünstige, task‑agnostische Ähnlichkeitssignale zwischen Modellen, um aus wenigen unmarkierten Probe‑Daten funktionale und strukturelle Merkmale zu extrahieren. Auf Basis dieser Merkmale werden die erwarteten Leistungen von 2‑Way‑Merge‑Operationen vorhergesagt, sodass SimMerge automatisch den besten Operator, die optimale Modellmenge und die Reihenfolge auswählt.
In Tests mit 7‑Billionen‑Parameter‑Modellen übertrifft SimMerge die Leistung herkömmlicher Merge‑Operatoren bei 2‑Way‑Merges und lässt sich ohne erneutes Training auf Multi‑Way‑Merges sowie auf 111‑Billionen‑Parameter‑Modelle übertragen. Zusätzlich bietet eine Bandit‑Variante die Möglichkeit, neue Aufgaben, Modelle und Operatoren dynamisch hinzuzufügen.
Die Ergebnisse zeigen, dass das Lernen, wie Modelle zusammengeführt werden können, ein praktikabler Weg ist, um skalierbare Modellzusammenstellungen zu realisieren – besonders wenn große Checkpoint‑Kataloge vorliegen und die Evaluationsbudgets begrenzt sind.