Roboter-Modelle lernen bei taktil-visionären Eingaben zuverlässig zu adaptieren
In der Robotik und multimodalen Wahrnehmung kommen taktil-visionale Sprachmodelle (TVL) immer häufiger zum Einsatz. Dabei treten während des Einsatzes unvermeidliche Verteilungsverschiebungen auf, die die Leistung der M…
- In der Robotik und multimodalen Wahrnehmung kommen taktil-visionale Sprachmodelle (TVL) immer häufiger zum Einsatz.
- Dabei treten während des Einsatzes unvermeidliche Verteilungsverschiebungen auf, die die Leistung der Modelle stark beeinträchtigen können.
- Aktuelle Test‑Time‑Adaptation‑Methoden (TTA) sind zwar in ein‑Modalen Szenarien wirksam, berücksichtigen jedoch nicht die jeweilige Zuverlässigkeit einzelner Modalitäten.
In der Robotik und multimodalen Wahrnehmung kommen taktil-visionale Sprachmodelle (TVL) immer häufiger zum Einsatz. Dabei treten während des Einsatzes unvermeidliche Verteilungsverschiebungen auf, die die Leistung der Modelle stark beeinträchtigen können.
Aktuelle Test‑Time‑Adaptation‑Methoden (TTA) sind zwar in ein‑Modalen Szenarien wirksam, berücksichtigen jedoch nicht die jeweilige Zuverlässigkeit einzelner Modalitäten. Wenn beispielsweise die taktile oder visuelle Sensorik ausfällt, bleiben die Modelle anfällig und liefern unzuverlässige Vorhersagen.
Wir stellen einen reliabilitätsbasierten Ansatz vor, der die Zuverlässigkeit jeder Modalität aus Vorhersageunsicherheit und perturbationsbasierten Reaktionen schätzt. Dieses gemeinsame Signalisierungssystem dient drei Zwecken: (i) unzuverlässige Testbeispiele werden herausgefiltert, (ii) taktile, visuelle und sprachliche Features werden adaptiv fusioniert, und (iii) die Test‑Time‑Optimierung wird durch ein reliabilitätsgeleitetes Ziel reguliert.
Auf dem TAG‑C‑Benchmark sowie in zusätzlichen TVL‑Szenarien übertrifft unser Verfahren konsequent starke TTA‑Baselines. Besonders bei schweren Modalitätsbeschädigungen konnten wir Genauigkeitsgewinne von bis zu 49,9 % erzielen, was die entscheidende Rolle einer expliziten Modality‑Reliability‑Modellierung für robuste Test‑Time‑Adaptation unterstreicht.
Welche Linse du auf diese Meldung legen solltest
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.