TOFA: Ein neuer Ansatz für federated Learning von Vision‑Language Modellen ohne Training
In der schnell wachsenden Forschung zum federated Learning von Vision‑Language Modellen (VLMs) präsentiert TOFA einen innovativen Weg, die Modelle effizient an neue Aufgaben anzupassen – und das ohne zusätzliche Trainingsschritte. Der Ansatz reduziert die Kommunikation zwischen den Clients und dem zentralen Server auf einen einzigen Austausch, was sowohl Kosten spart als auch die Anfälligkeit für Angriffe verringert.
Der Schlüssel von TOFA liegt in der Kombination zweier spezialisierter Pipelines. Die visuelle Pipeline nutzt ein hierarchisches Bayessches Modell, um personalisierte, klassenbezogene Prototypen zu lernen. Parallel dazu bewertet und global ausrichtet die textuelle Pipeline lokale Text‑Prompts, um die Robustheit der multimodalen Informationen zu erhöhen. Durch diese doppelte Auswertung werden die reichhaltigen multimodalen Features der vortrainierten VLMs voll ausgenutzt.
Ein weiteres Highlight ist die adaptive Gewichtskalibrierung, die die unterschiedlichen Datenheterogenitäten der Clients systematisch berücksichtigt. Damit wird die Notwendigkeit zusätzlicher Trainingsressourcen für Clients oder den Server eliminiert. TOFA demonstriert damit, wie man federated Learning schlanker, sicherer und gleichzeitig leistungsfähiger gestalten kann.