Effiziente Modellbewertung bei Interventionen: Neue Methode nutzt alle RCT‑Daten
In vielen KI‑Anwendungen für soziale Wirkung wird die Leistungsfähigkeit von Modellen vor allem danach beurteilt, wie gut sie ein bestimmtes Ergebnis vorhersagen können. Sobald jedoch eine Intervention – etwa ein politisches Programm oder ein medizinisches Verfahren – das Ergebnis beeinflusst, kann die klassische Bewertung verzerrt werden.
Randomisierte kontrollierte Studien (RCTs) sind die goldene Norm, um solche Effekte zu isolieren: Durch Zufall wird die Intervention verteilt und die Kontrollgruppe liefert Daten, die ohne Einfluss der Intervention gelten. Diese Daten sind ideal für eine unvoreingenommene Modellbewertung, doch die Methode ignoriert dabei sämtliche Informationen aus der Behandlungsgruppe, was die Effizienz stark reduziert.
Die vorliegende Arbeit untersucht, wie man sämtliche RCT‑Daten sinnvoll nutzen kann. Zunächst wird theoretisch der Schätzfehler quantifiziert, der entsteht, wenn Leistungswerte aus Behandlungs- und Kontrollgruppen einfach zusammengeführt werden. Daraus folgt eine Bedingung, unter der dieser Bias zu einer falschen Modellauswahl führt.
Auf Basis dieser Erkenntnisse wird die Methode „Nuisance Parameter Weighting“ (NPW) vorgestellt. NPW wendet eine gewichtete Umverteilung der Behandlungsdaten an, sodass deren Verteilung derjenigen entspricht, die bei fehlender Intervention beobachtet worden wäre. Damit entsteht eine unverzerrte Bewertung des Modells.
Durch Simulationen und Analysen realer Datensätze zeigt die Studie, dass NPW konsequent bessere Modellauswahlen ermöglicht als der herkömmliche Ansatz, der die Behandlungsdaten ignoriert. Der Vorteil ist besonders bei unterschiedlichen Interventionsgrößen und Stichprobengrößen deutlich.
Diese Ergebnisse markieren einen wichtigen Fortschritt für die effiziente Bewertung von KI‑Modellen in realen, interventionalen Szenarien und eröffnen neue Möglichkeiten, vorhandene Daten optimal zu nutzen.