Adaptive Confidence Refinement verbessert zuverlässige Audio-Visual-Fragenantworten
In der Forschung zu Audio‑Visual‑Fragenantworten (AVQA) wird zunehmend erkannt, dass ein Modell nicht nur korrekte Antworten liefern, sondern auch wissen muss, wann es sich unsicher ist. Das neue Konzept der „Reliable Audio‑Visual Question Answering“ (R‑AVQA) legt den Fokus darauf, lieber keine Antwort zu geben, als eine falsche zu liefern. Trotz hoher Genauigkeit der aktuellen AVQA‑Modelle fehlt bislang ein robustes Verfahren, das erkennt, wann die Vorhersage wahrscheinlich fehlerhaft ist, und daraufhin abstains.