FedUMM: Federated Learning multimodale Modelle geringem Kommunikationsaufwand
Unified multimodale Modelle (UMMs) gelten als leistungsstarke Basismodelle, die sowohl generative als auch Verständnisaufgaben in einer einzigen Architektur bewältigen können. In der Praxis werden sie jedoch meist zentr…
- Unified multimodale Modelle (UMMs) gelten als leistungsstarke Basismodelle, die sowohl generative als auch Verständnisaufgaben in einer einzigen Architektur bewältigen k…
- In der Praxis werden sie jedoch meist zentral trainiert, wodurch ihre Nutzung in datenschutzkritischen und geografisch verteilten Szenarien stark eingeschränkt wird.
- Mit FedUMM wird ein generisches Federated‑Learning‑Framework vorgestellt, das UMMs unter nicht‑IID multimodalen Daten mit minimalem Kommunikationsaufwand ermöglicht.
Unified multimodale Modelle (UMMs) gelten als leistungsstarke Basismodelle, die sowohl generative als auch Verständnisaufgaben in einer einzigen Architektur bewältigen können. In der Praxis werden sie jedoch meist zentral trainiert, wodurch ihre Nutzung in datenschutzkritischen und geografisch verteilten Szenarien stark eingeschränkt wird.
Mit FedUMM wird ein generisches Federated‑Learning‑Framework vorgestellt, das UMMs unter nicht‑IID multimodalen Daten mit minimalem Kommunikationsaufwand ermöglicht. Das System baut auf NVIDIA FLARE auf und nutzt einen BLIP3o‑Backbone. Durch parameter‑effizientes Fine‑Tuning trainieren die Clients leichte LoRA‑Adapter, während die Basismodelle eingefroren bleiben. Der Server aggregiert ausschließlich die Adapter‑Updates, wodurch die Datenübertragung deutlich reduziert wird.
Die Evaluation erfolgte an den Benchmarks VQA v2 und GenEval unter Dirichlet‑kontrollierter Heterogenität mit bis zu 16 Clients. Die Ergebnisse zeigen nur geringe Leistungseinbußen, wenn die Clientzahl und die Heterogenität steigen, und bleiben dennoch mit zentralem Training konkurrenzfähig. Eine detaillierte Analyse der Rechen‑Kommunikations‑Trade‑offs verdeutlicht, dass die Adapter‑nur‑Federation die pro‑Runde-Kommunikation um mehr als ein Vielfaches senkt im Vergleich zum vollständigen Fine‑Tuning, was die praktische Umsetzung von federated UMM‑Training realistisch macht.
FedUMM liefert damit wertvolle empirische Erkenntnisse für zukünftige Forschungen zu datenschutzfreundlichen, federated‑Learning‑Ansätzen für einheitliche multimodale Modelle.
Welche Linse du auf diese Meldung legen solltest
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.
Kontext ohne Glossar-Suche
Wenn du nach dieser Meldung weiterlernen willst
Von dieser Meldung direkt in Hub, Analyse und Nachbarthemen
Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.