M3OOD: Automatische Auswahl von multimodalen OOD‑Detektoren

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Die Robustheit gegenüber Out‑of‑Distribution‑(OOD) Daten ist ein zentrales Problem moderner KI‑Systeme, besonders wenn sie in multimodalen Umgebungen arbeiten, die Video, Audio und Sensordaten kombinieren. Für jede Art von Verteilungsshift existieren zahlreiche OOD‑Detektoren, doch keiner von ihnen ist in allen Szenarien überlegen. Die Aufgabe, den besten Detektor automatisch zu wählen, ist schwierig, weil OOD‑Erkennung per Definition unüberwacht erfolgt und die Leistung von Modellen schwer vorherzusagen ist. Zudem ist ein systematisches Vergleichen neuer Daten oft teuer oder gar nicht praktikabel.

Um diese Herausforderung anzugehen, stellt M3OOD ein meta‑learning‑basiertes Framework vor, das die Auswahl von OOD‑Detektoren in multimodalen Settings automatisiert. Durch das Lernen aus historischen Modellverhalten kann M3OOD schnell auf neue Verteilungsshifts reagieren, ohne umfangreiche Supervision. Das System kombiniert multimodale Einbettungen mit handgefertigten Meta‑Features, die sowohl die Verteilung als auch die Querschnittscharakteristika der Modalitäten erfassen. Auf Basis der gesammelten Leistungsdaten aus diversen Benchmarks empfiehlt M3OOD den am besten geeigneten Detektor für einen neuen Daten‑Shift.

Experimentelle Ergebnisse zeigen, dass M3OOD konsequent 10 führende Baselines in 12 Test‑Szenarien übertrifft, während der Rechenaufwand minimal bleibt. Damit liefert M3OOD einen praktischen und effizienten Ansatz, um die OOD‑Robustheit multimodaler KI‑Systeme zuverlässig zu erhöhen.

Ähnliche Artikel