Mehrmodaliges ML vorhersagt frühzeitiges Vertrauen in KI – Gesicht & GSR
In einer wegweisenden Studie wurde ein mehrmodaler Machine‑Learning‑Ansatz entwickelt, der das Vertrauen von Nutzern in KI‑Systeme bereits wenige Sekunden vor ihrer Entscheidung vorhersagen kann. Durch die Kombination von Gesichtsbildern und galvanischer Hautreaktion (GSR) lassen sich emotionale und physiologische Signale gleichzeitig erfassen, was die Genauigkeit der Vorhersage deutlich steigert.
Die Forscher extrahierten Bilddaten aus Videoaufnahmen mit OpenCV und nutzten ein vortrainiertes Transformer‑Modell, um emotionale Merkmale zu gewinnen. Parallel wurden die GSR‑Signale in tonische und phasische Komponenten zerlegt, um Aufmerksamkeits‑ und Erregungsmuster zu identifizieren. Für die Vorhersage wurden zwei Zeitfenster definiert: ein Early‑Detection‑Window (6–3 s vor der Entscheidung) und ein Proximal‑Detection‑Window (3–0 s vor der Entscheidung).
Jedes Modalität wurde zunächst mit eigenständigen Machine‑Learning‑Modellen analysiert. Die besten unimodalen Modelle wurden anschließend in einem Stacking‑Ensemble kombiniert, um die finale Vorhersage zu treffen. In der frühen Phase erreichte das multimodale System eine Genauigkeit von 0,83, einen F1‑Score von 0,88 und einen ROC‑AUC von 0,87. Im späteren Zeitfenster lagen die Kennzahlen bei 0,75 Genauigkeit, 0,82 F1‑Score und 0,66 ROC‑AUC.
Die Ergebnisse zeigen, dass die Integration von Gesichtsbildern und GSR‑Signalen das Vertrauen von Nutzern in KI‑Entscheidungen zuverlässig vorhersagen kann. Diese Erkenntnisse eröffnen neue Möglichkeiten für die sichere und vertrauenswürdige Einbindung von KI‑gestützten Entscheidungshilfen, insbesondere im Gesundheitswesen.