Kontextbasierte Entscheidungsfindung zur Optimierung komplexer AutoML-Pipelines
Die klassische CASH-Strategie (Combined Algorithm Selection and Hyperparameter Optimization) hat AutoML-Systeme seit Jahren geprägt. Mit dem Aufkommen vortrainierter Modelle und der Notwendigkeit von Feinabstimmung, Ensembling und anderen Anpassungstechniken hat sich das Problem jedoch deutlich erweitert: Man muss nicht nur den besten Algorithmus finden, sondern auch die passende Pipeline aus einer Vielzahl heterogener Komponenten auswählen und anpassen.
In dem neuen Beitrag wird das CASH-Framework um ein innovatives Verfahren namens PS‑PFN erweitert. PS‑PFN kombiniert Posterior Sampling mit dem Max‑k‑Armed‑Bandit-Setup und nutzt dabei prior‑datenbasierte Netzwerke (PFNs), um die Posterior‑Verteilung des maximalen Rewards effizient zu schätzen. Durch die Einbindung von In‑Context‑Learning kann das Modell schnell aus wenigen Beobachtungen lernen und die optimale Pipeline‑Konfiguration bestimmen.
Ein besonderes Merkmal von PS‑PFN ist die Kosten‑sensitivität: Es berücksichtigt unterschiedliche Kosten für das Ziehen der einzelnen „Arms“ und erlaubt die Verwendung unterschiedlicher PFNs, die die Reward‑Verteilungen arm‑spezifisch modellieren. Dadurch wird die Exploration gezielt auf die vielversprechendsten Pipeline‑Optionen ausgerichtet.
Die Autoren demonstrieren die Leistungsfähigkeit von PS‑PFN an einem neu eingeführten Benchmark sowie an zwei etablierten Standard‑Aufgaben. In allen Fällen übertrifft PS‑PFN sowohl klassische Bandit‑Methoden als auch andere AutoML‑Strategien. Der komplette Code und die Datensätze stehen auf GitHub zur Verfügung: https://github.com/amirbalef/CASHPlus.