Forschung arXiv – cs.LG

FedUMM: Federated Learning multimodale Modelle geringem Kommunikationsaufwand

Unified multimodale Modelle (UMMs) gelten als leistungsstarke Basismodelle, die sowohl generative als auch Verständnisaufgaben in einer einzigen Architektur bewältigen können. In der Praxis werden sie jedoch meist zentr…

≈1 Min. Lesezeit Originalquelle
Kernaussagen
Das nimmst du aus dem Beitrag mit
  • Unified multimodale Modelle (UMMs) gelten als leistungsstarke Basismodelle, die sowohl generative als auch Verständnisaufgaben in einer einzigen Architektur bewältigen k…
  • In der Praxis werden sie jedoch meist zentral trainiert, wodurch ihre Nutzung in datenschutzkritischen und geografisch verteilten Szenarien stark eingeschränkt wird.
  • Mit FedUMM wird ein generisches Federated‑Learning‑Framework vorgestellt, das UMMs unter nicht‑IID multimodalen Daten mit minimalem Kommunikationsaufwand ermöglicht.

Unified multimodale Modelle (UMMs) gelten als leistungsstarke Basismodelle, die sowohl generative als auch Verständnisaufgaben in einer einzigen Architektur bewältigen können. In der Praxis werden sie jedoch meist zentral trainiert, wodurch ihre Nutzung in datenschutzkritischen und geografisch verteilten Szenarien stark eingeschränkt wird.

Mit FedUMM wird ein generisches Federated‑Learning‑Framework vorgestellt, das UMMs unter nicht‑IID multimodalen Daten mit minimalem Kommunikationsaufwand ermöglicht. Das System baut auf NVIDIA FLARE auf und nutzt einen BLIP3o‑Backbone. Durch parameter‑effizientes Fine‑Tuning trainieren die Clients leichte LoRA‑Adapter, während die Basismodelle eingefroren bleiben. Der Server aggregiert ausschließlich die Adapter‑Updates, wodurch die Datenübertragung deutlich reduziert wird.

Die Evaluation erfolgte an den Benchmarks VQA v2 und GenEval unter Dirichlet‑kontrollierter Heterogenität mit bis zu 16 Clients. Die Ergebnisse zeigen nur geringe Leistungseinbußen, wenn die Clientzahl und die Heterogenität steigen, und bleiben dennoch mit zentralem Training konkurrenzfähig. Eine detaillierte Analyse der Rechen‑Kommunikations‑Trade‑offs verdeutlicht, dass die Adapter‑nur‑Federation die pro‑Runde-Kommunikation um mehr als ein Vielfaches senkt im Vergleich zum vollständigen Fine‑Tuning, was die praktische Umsetzung von federated UMM‑Training realistisch macht.

FedUMM liefert damit wertvolle empirische Erkenntnisse für zukünftige Forschungen zu datenschutzfreundlichen, federated‑Learning‑Ansätzen für einheitliche multimodale Modelle.

Einordnen in 60 Sekunden

Welche Linse du auf diese Meldung legen solltest

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

Was veraendert sich praktisch?
Ist das eher Signal, Produkt oder nur kurzfristiger Hype?
Begriffe zum Einordnen

Kontext ohne Glossar-Suche

Föderiertes Lernen
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Unified multimodale Modelle
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
LoRA-Adapter
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
arXiv – cs.LG
Diese Quelle setzt den Ausgangspunkt fuer die Meldung. Pruefe immer, ob sie eher Forschung, Produktmarketing oder Praxisperspektive liefert.
Naechste Schritte

Aehnliche Entwicklungen zum Weiterlesen