Neues Framework CyIN verbessert multimodales Lernen bei fehlenden Modalitäten

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Im Zeitalter der multimodalen KI strebt die Forschung danach, die Art und Weise zu imitieren, wie das menschliche Gehirn verschiedene Sinnesmodalitäten integriert. Bisher wurden die meisten Modelle jedoch ausschließlich mit perfekt gepaarten Daten trainiert, was in realen Anwendungen zu erheblichen Leistungsabfällen führt, wenn Modalitäten fehlen oder unregelmäßig auftreten.

Das neue Framework CyIN (Cyclic Informative Learning) adressiert dieses Problem, indem es einen informativen latenten Raum schafft. Durch die wiederholte Anwendung eines token‑ und label‑basierten Information‑Bottleneck-Ansatzes über die Modalitäten hinweg werden task‑relevante Merkmale mit einer variationalen Approximation erfasst. Die daraus resultierenden latenten Repräsentationen werden anschließend gereinigt, um eine effizientere Kreuzmodalinteraktion und -fusion zu ermöglichen.

Um fehlende Informationen zu kompensieren, führt CyIN eine kreisförmige, cross‑modal Translation ein: fehlende Modalitäten werden aus den vorhandenen rekonstruiert, indem ein Vorwärts‑ und Rückwärtspropagationsprozess genutzt wird. Durch die Kombination der extrahierten und rekonstruierten latenten Merkmale kann das Modell sowohl vollständige als auch unvollständige multimodale Lernaufgaben in einem einheitlichen Ansatz optimieren.

Umfangreiche Tests an vier multimodalen Datensätzen zeigen, dass CyIN in allen Szenarien – sowohl bei vollständigen als auch bei stark variierenden fehlenden Modalitäten – eine überlegene Leistung erzielt. Das Framework demonstriert damit, wie robuste multimodale Systeme in dynamischen, realen Umgebungen realisiert werden können.

Ähnliche Artikel