Datenqualität entscheidet: Wie Fehler ML-Modelle für Kreditrisikobewertung schwächen
In der heutigen Kreditvergabe spielen maschinelle Lernmodelle eine immer größere Rolle. Ihre Leistungsfähigkeit hängt jedoch stark von der Qualität der Eingangsdaten ab. Ein neues Papier aus dem arXiv‑Repository untersucht, wie fehlende Werte, Rauschen, Ausreißer und fehlerhafte Labels die Vorhersagegenauigkeit von Kreditrisikobewertungen beeinflussen.
Die Autoren haben ein öffentlich verfügbares Datenset genutzt und gezielt Datenfehler mit der Pucktrick‑Bibliothek eingeführt. Auf diese Weise konnten sie zehn gängige Modelle – darunter Random Forest, SVM und logistische Regression – unter verschiedenen Stufen der Datenverschlechterung testen. Die Ergebnisse zeigen deutliche Unterschiede in der Robustheit der Modelle, je nachdem, welche Art von Fehler vorlag und wie stark die Daten beeinträchtigt waren.
Die vorgestellte Methodik und die zugehörigen Tools bieten Praktikern konkrete Hilfestellung, um ihre Datenpipelines widerstandsfähiger zu gestalten. Gleichzeitig liefert das flexible Rahmenwerk Forschern eine Plattform, um weitere Experimente im datenzentrierten KI‑Umfeld durchzuführen. Das Papier unterstreicht damit, dass die Qualität der Daten ein entscheidender Faktor für den Erfolg von ML‑gestützten Kreditrisikobewertungen ist.