Neues Surrogatmodell prognostiziert Laufzeit in Dragonfly-Netzwerken
Forscher haben ein neues Surrogatmodell vorgestellt, das die Laufzeit von Anwendungen in Dragonfly-Netzwerken präzise vorhersagen kann.
Dragonfly ist ein hochradix, niedrigdiametrisches Netzwerk, das in Hochleistungsrechnern eingesetzt wird. Ein zentrales Problem ist die Interferenz von Arbeitslasten auf gemeinsam genutzten Netzwerkverbindungen.
Traditionelle Parallel‑Diskrete‑Event‑Simulationen (PDES) analysieren diese Interferenzen, sind jedoch rechenintensiv und kaum praktikabel für groß angelegte oder Echtzeit‑Szenarien.
Das neue Modell kombiniert Graph Neural Networks (GNNs) mit großen Sprachmodellen (LLMs), um räumliche und zeitliche Muster aus Port‑Level‑Routerdaten zu erfassen.
Im Vergleich zu bestehenden statistischen und maschinellen Lernbaselines übertrifft es die Genauigkeit bei der Laufzeitvorhersage und ermöglicht damit effiziente hybride Simulationen.
Diese Fortschritte könnten die Planung und Optimierung von Hochleistungsrechnern erheblich verbessern.