TouchFormer: Robustes multimodales Framework für Materialerkennung

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

In der Materialerkennung, die traditionell stark von visuellen Daten abhängt, treten bei schlechten Lichtverhältnissen oder anderen visuell beeinträchtigenden Bedingungen häufig erhebliche Leistungseinbußen auf. Um diesem Problem zu begegnen, setzt die neue Methode TouchFormer auf eine Kombination aus multimodalen Sensoren und einem Transformer-basierten Ansatz.

TouchFormer nutzt ein Modality‑Adaptive‑Gating‑System, das die unterschiedlichen Stärken und Schwächen einzelner Modalitäten – etwa Tastsensoren, akustische Messungen oder Wärmebilder – erkennt und gewichtet. Zusätzlich kommen intra‑ und inter‑modale Aufmerksamkeitsmechanismen zum Einsatz, die die relevanten Merkmale aus den verschiedenen Modalitäten selektiv zusammenführen. Durch diese adaptive Fusion wird die Robustheit des Modells gegenüber Rauschen und fehlenden Modalitäten deutlich erhöht.

Ein weiteres Highlight ist die Cross‑Instance Embedding Regularization (CER), die die Klassifikationsgenauigkeit bei fein granularen Materialkategorien verbessert. In Benchmark‑Tests übertrifft TouchFormer bestehende nicht‑visuelle Ansätze um 2,48 % bei der SSMC‑Aufgabe und um 6,83 % bei der USMC‑Aufgabe. Praktische Robotik‑Experimente zeigen, dass das System in realen Umgebungen zuverlässig arbeitet und damit besonders für sicherheitskritische Anwendungen wie Notfall‑Roboter oder industrielle Automatisierung geeignet ist.

Ähnliche Artikel