GraphPerf-RT: Graphbasiertes Modell für OpenMP-Performance auf SoCs
Die Vorhersage der Laufzeit und Energie von OpenMP‑Programmen auf heterogenen eingebetteten Systemen ist wegen der komplexen Wechselwirkungen zwischen Aufgaben‑DAG, Kontrollfluss, Cache‑ und Branch‑Verhalten sowie thermischen Effekten besonders schwierig. Klassische Heuristiken stoßen bei unregelmäßigen Workloads an ihre Grenzen, tabellarische Regressoren vernachlässigen strukturelle Informationen und modellfreie Reinforcement‑Learning‑Ansätze riskieren, ressourcenbeschränkte Geräte zu überhitzen.
GraphPerf‑RT löst diese Probleme, indem es die Topologie des Aufgaben‑DAGs, die semantischen Informationen aus dem Kontrollflussgraphen (CFG) und den Laufzeitkontext (z. B. pro‑Kern‑DVFS, thermischer Zustand, Auslastung) in einer heterogenen Graphen‑Repräsentation zusammenführt. Typisierte Kanten kodieren dabei Präzedenz, Platzierung und Konkurrenz, sodass das Modell die gesamte Ausführungsstruktur erfasst.
Das Modell nutzt multi‑task‑evidential Heads, die gleichzeitig Laufzeit, Energie, Cache‑ und Branch‑Misses sowie Auslastung vorhersagen. Durch die Verwendung einer Normal‑Inverse‑Gamma‑Verteilung wird eine kalibrierte Unsicherheit geliefert, die risk‑aware Scheduling‑Entscheidungen ermöglicht und Unsicherheits‑basierte Rollouts filtert.
GraphPerf‑RT wurde auf drei realen ARM‑Plattformen – Jetson TX2, Jetson Orin NX und RUBIK Pi – getestet. Die Vorhersagen erreichten ein R²‑Wert von über 0,95, während die Expected Calibration Error (ECE) unter 0,05 blieb, was eine sehr gute Kalibrierung der Unsicherheitsabschätzungen bestätigt.
Zur Demonstration der praktischen Nutzen wurde GraphPerf‑RT als Weltmodell in vier Reinforcement‑Learning‑Methoden auf dem Jetson TX2 eingesetzt: ein einzelner agenten‑freier (SAMFRL), ein einzelner agenten‑basierter (SAMBRL), ein multi‑agenten‑freier (MAMFRL‑D3QN) und ein multi‑agenten‑basierter Ansatz (MAMBRL‑D3QN). In Experimenten mit fünf Seed‑Runs (je 200 Episoden) erzielte der multi‑agenten‑basierte Ansatz MAMBRL‑D3QN mit GraphPerf‑RT eine Laufzeit‑Reduktion von 66 % (0,97 ± 0,35 s) und eine Energieeinsparung von 82 % (0,006 ± 0,005 J) gegenüber den modellfreien Baselines.