meval: Statistisches Toolbox für detaillierte Analyse von Modellleistung

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Die neue Open‑Source‑Bibliothek meval bietet Forschern und Entwicklern ein umfassendes Werkzeug, um die Leistung von maschinellen Lernmodellen präzise und statistisch fundiert nach Patienten- und Aufzeichnungsmerkmalen zu untersuchen. Damit wird die Analyse von Modellfehlern auf Subgruppenebene zum Standardverfahren.

Traditionelle Leistungsanalysen stoßen häufig an Grenzen: Die Auswahl geeigneter Metriken, die Berücksichtigung von Stichprobengrößen und Basisraten, die Abschätzung von Unsicherheiten sowie die Korrektur für mehrere Tests sind komplex. meval löst diese Probleme, indem es automatisierte Verfahren zur Metrikauswahl, zur Berechnung von Konfidenzintervallen und zur Anpassung bei multiplen Vergleichen bereitstellt. Für intersectionale Analysen – also die Untersuchung von Subgruppen, die aus mehreren Merkmalen bestehen – implementiert das Toolbox intelligente Algorithmen, die die interessantesten Untergruppen identifizieren.

Obwohl die Toolbox allgemein einsetzbar ist, wurde sie speziell für medizinische Bildgebungsanwendungen entwickelt. In zwei exemplarischen Studien demonstriert sie ihre Leistungsfähigkeit: Erstens bei der Klassifikation von Hautläsionen auf dem ISIC2020‑Datensatz, zweitens bei der Diagnose von Erkrankungen anhand von Röntgenaufnahmen im MIMIC‑CXR‑Datensatz. In beiden Fällen konnten signifikante Leistungsunterschiede zwischen Subgruppen aufgedeckt und statistisch validiert werden.

Die Veröffentlichung von meval markiert einen wichtigen Schritt hin zu transparenteren und nachvollziehbareren KI‑Systemen im Gesundheitswesen. Durch die Kombination von rigoroser Statistik und benutzerfreundlicher Implementierung ermöglicht die Bibliothek Fachleuten, potenzielle Ungleichheiten in der Modellleistung frühzeitig zu erkennen und gezielt zu adressieren.

Ähnliche Artikel