Neuer Ansatz: Bewertung unüberwachter Feature‑Selection mit Multi‑Label‑Daten

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

In einer aktuellen Veröffentlichung auf arXiv wird ein neues Verfahren zur Bewertung unüberwachter Feature‑Selection vorgestellt. Das Ziel dieser Methode ist es, aus großen Datensätzen kompakte Merkmalsmengen zu extrahieren, die die zugrunde liegende Struktur der Daten erfassen – und das ohne auf gelabelte Trainingsdaten zurückzugreifen.

Traditionell werden solche Verfahren anhand von Ein‑Label‑Datensätzen getestet, die aus Multi‑Label‑Datensätzen abgeleitet werden, indem man zufällig ein Label auswählt. Diese Vorgehensweise führt jedoch zu stark variierenden Rangordnungen der Methoden, da die Wahl des Labels das Ergebnis maßgeblich beeinflusst. Die Autoren zeigen, dass eine reine Ein‑Label‑Bewertung die wahre diskriminierende Leistungsfähigkeit der Verfahren nicht zuverlässig widerspiegelt.

Um diesem Problem zu begegnen, haben die Forscher einen Multi‑Label‑Klassifikationsrahmen eingeführt und 21 Multi‑Label‑Datensätze mit mehreren repräsentativen Verfahren getestet. Die Resultate verdeutlichen, dass die Ranglisten der Methoden unter Multi‑Label‑Bedingungen deutlich von denen in Ein‑Label‑Tests abweichen. Diese Erkenntnis legt nahe, dass Multi‑Label‑Evaluierungen ein faireres und zuverlässigeres Mittel darstellen, um unüberwachte Feature‑Selection‑Methoden zu vergleichen und weiterzuentwickeln.

Ähnliche Artikel