BatchEnsemble: Mehr ein Einzelmodell als echtes Ensemble – Studie zeigt
In einer aktuellen Untersuchung zum Thema Unsicherheitsabschätzung in ressourcenbeschränkten Systemen wurde BatchEnsemble – ein Ansatz, der auf rank‑1‑Störungen eines gemeinsamen Basisnetzwerks basiert – genauer unter die Lupe genommen. Die Forscher fanden heraus, dass BatchEnsemble in Bezug auf Genauigkeit, Kalibrierung und die Erkennung von Out‑of‑Distribution‑Daten (CIFAR‑10, CIFAR‑10C, SVHN) kaum besser abschneidet als ein einzelnes Modell. Im Vergleich dazu liefern klassische Deep Ensembles deutlich robustere epistemische Unsicherheitswerte, allerdings zu einem viel höheren Parameter- und Speicheraufwand.
Ein besonders aufschlussreicher Teil der Studie war die Analyse von MNIST. Hier zeigte sich, dass die einzelnen Ensemble‑Mitglieder nahezu identische Funktionsprofile und Parameterwerte besitzen. Das bedeutet, dass die Ensemble‑Mitglieder kaum unterschiedliche Vorhersagemodi realisieren können – ein entscheidendes Merkmal eines echten Ensembles. Stattdessen verhält sich BatchEnsemble praktisch wie ein einzelnes Modell, das lediglich leicht variierte Kopien nutzt.
Die Ergebnisse legen nahe, dass BatchEnsemble zwar auf den ersten Blick wie ein Ensemble wirkt, jedoch in der Praxis die Vorteile echter Ensembles nicht vollständig nutzt. Für Entwickler, die auf Effizienz und geringe Ressourcenverbrauch angewiesen sind, bleibt die Frage offen, ob die geringere Komplexität von BatchEnsemble die potenziell geringere Unsicherheitsqualität wert ist. Die Studie liefert wichtige Erkenntnisse für die Auswahl geeigneter Modelle in Low‑Latency‑Umgebungen.