Kommunikation im latenten Raum durch K‑V‑Cache‑Ausrichtung
Mit der wachsenden Komplexität von Aufgaben, die große Sprachmodelle (LLMs) bewältigen sollen, wird deutlich, dass einzelne Modelle nicht mehr ausreichen. Stattdessen gilt es, Multi‑Model‑Systeme zu entwickeln, die effektiv zusammenarbeiten können.
Traditionell dient Text als Kommunikationsmedium zwischen Modellen. In dieser Arbeit wird jedoch gezeigt, dass ein viel reichhaltigerer und effizienterer Austausch möglich ist, wenn Modelle direkten Zugriff auf die internen Zustände der anderen erhalten.
Der Ansatz besteht darin, einen gemeinsamen Repräsentationsraum zu erlernen, der die k‑v‑Caches mehrerer Modelle ausrichtet. Dadurch entsteht ein Hochbandbreiten‑Kanal für die Zusammenarbeit, ohne die vortrainierten Parameter der Modelle zu verändern.
Zur Umsetzung werden jedem Modell Adapter hinzugefügt, die dessen Zustand in den gemeinsamen Raum übersetzen und wieder zurückführen. Diese Adapter ermöglichen die bidirektionale Kommunikation ohne Änderungen an den Kernmodellen.
Durch eine Reihe von Experimenten mit Gemma‑2‑Modellen wird demonstriert, dass dieser Ansatz nicht nur nahtlose Inter‑Model‑Kommunikation ermöglicht, sondern auch die Leistung einzelner Modelle verbessert. Zudem lässt sich das gemeinsame Raumkonzept nutzen, um erlernte Fähigkeiten – etwa Soft‑Prompts – direkt zwischen verschiedenen Modellen zu übertragen.
Die vorgestellte Technik markiert einen bedeutenden Fortschritt auf dem Weg zu Systemen, in denen Modelle ihr Wissen und ihre Fähigkeiten fluid miteinander teilen können.