Forschung arXiv – cs.AI

Roboter-Modelle lernen bei taktil-visionären Eingaben zuverlässig zu adaptieren

In der Robotik und multimodalen Wahrnehmung kommen taktil-visionale Sprachmodelle (TVL) immer häufiger zum Einsatz. Dabei treten während des Einsatzes unvermeidliche Verteilungsverschiebungen auf, die die Leistung der M…

≈1 Min. Lesezeit Originalquelle
Visuelle Illustration fuer KI-Kontext
Kernaussagen
Das nimmst du aus dem Beitrag mit
  • In der Robotik und multimodalen Wahrnehmung kommen taktil-visionale Sprachmodelle (TVL) immer häufiger zum Einsatz.
  • Dabei treten während des Einsatzes unvermeidliche Verteilungsverschiebungen auf, die die Leistung der Modelle stark beeinträchtigen können.
  • Aktuelle Test‑Time‑Adaptation‑Methoden (TTA) sind zwar in ein‑Modalen Szenarien wirksam, berücksichtigen jedoch nicht die jeweilige Zuverlässigkeit einzelner Modalitäten.

In der Robotik und multimodalen Wahrnehmung kommen taktil-visionale Sprachmodelle (TVL) immer häufiger zum Einsatz. Dabei treten während des Einsatzes unvermeidliche Verteilungsverschiebungen auf, die die Leistung der Modelle stark beeinträchtigen können.

Aktuelle Test‑Time‑Adaptation‑Methoden (TTA) sind zwar in ein‑Modalen Szenarien wirksam, berücksichtigen jedoch nicht die jeweilige Zuverlässigkeit einzelner Modalitäten. Wenn beispielsweise die taktile oder visuelle Sensorik ausfällt, bleiben die Modelle anfällig und liefern unzuverlässige Vorhersagen.

Wir stellen einen reliabilitätsbasierten Ansatz vor, der die Zuverlässigkeit jeder Modalität aus Vorhersageunsicherheit und perturbationsbasierten Reaktionen schätzt. Dieses gemeinsame Signalisierungssystem dient drei Zwecken: (i) unzuverlässige Testbeispiele werden herausgefiltert, (ii) taktile, visuelle und sprachliche Features werden adaptiv fusioniert, und (iii) die Test‑Time‑Optimierung wird durch ein reliabilitätsgeleitetes Ziel reguliert.

Auf dem TAG‑C‑Benchmark sowie in zusätzlichen TVL‑Szenarien übertrifft unser Verfahren konsequent starke TTA‑Baselines. Besonders bei schweren Modalitätsbeschädigungen konnten wir Genauigkeitsgewinne von bis zu 49,9 % erzielen, was die entscheidende Rolle einer expliziten Modality‑Reliability‑Modellierung für robuste Test‑Time‑Adaptation unterstreicht.

Einordnen in 60 Sekunden

Welche Linse du auf diese Meldung legen solltest

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

Was veraendert sich fuer Nutzer oder Builder konkret?
Ist das ein nachhaltiger Trend oder nur ein kurzes Signal?
Begriffe zum Einordnen

Kontext ohne Glossar-Suche

arXiv – cs.AI
Diese Quelle setzt den Ausgangspunkt fuer die Meldung. Pruefe immer, ob sie eher Forschung, Produktmarketing oder Praxisperspektive liefert.