Einmaliger Cluster-Federated Learning mit Datenkollaboration bei nicht-IID-Daten
Federated Learning (FL) ermöglicht es, Modelle über mehrere Clients hinweg zu trainieren, ohne dass rohe Daten geteilt werden. Bei stark heterogenen Datenverteilungen – dem sogenannten Non‑IID‑Problem – kann Cluster‑Federated Learning (CFL) die Leistung deutlich steigern, indem ähnliche Clients zusammengefasst und klusterspezifische Modelle trainiert werden.
Allerdings erfordern die meisten CFL‑Ansätze mehrere Kommunikationsrunden, um Cluster zu bestimmen und Modelle zu aktualisieren. Das macht sie in Umgebungen mit begrenzter Kommunikationskapazität unpraktisch.
Die neue Methode, Data Collaboration‑based Clustered Federated Learning (DC‑CFL), löst dieses Problem, indem sie alles in einer einzigen Kommunikationsrunde erledigt. Durch die Analyse der gemeinsamen Daten (Data Collaboration) wird die Ähnlichkeit zwischen Clients mittels der Total‑Variation‑Distanz der Label‑Verteilungen gemessen. Anschließend werden die Clients hierarchisch gruppiert und die cluster‑spezifischen Modelle direkt aus der Datenkollaboration abgeleitet.
Experimentelle Tests auf mehreren offenen Datensätzen unter realistischen Non‑IID‑Bedingungen zeigen, dass DC‑CFL Genauigkeiten liefert, die mit herkömmlichen, mehrrundenbasierten Baselines vergleichbar sind – und das mit nur einer einzigen Kommunikationsrunde.
Diese Ergebnisse machen DC‑CFL zu einer praktikablen Alternative für die kollaborative Entwicklung von KI‑Modellen, wenn mehrere Kommunikationsrunden nicht möglich oder zu kostenintensiv sind.