Neues Multi-Agent RL verbessert O‑RAN‑Ressourcenverwaltung um 22 %
In der nächsten Generation von Mobilfunknetzen spielt die Open Radio Access Network (O‑RAN) Architektur eine zentrale Rolle. Durch den RAN Intelligent Controller (RIC) können Netzwerkressourcen dynamisch verwaltet werden, was die Effizienz und Flexibilität der Infrastruktur deutlich erhöht.
Traditionelle Deep‑Reinforcement‑Learning‑Modelle, wie der Soft Actor Critic (SAC), zeigen zwar vielversprechende Ergebnisse, stoßen jedoch häufig an ihre Grenzen, wenn es um Robustheit und Generalisierbarkeit in sich ständig verändernden Umgebungen geht. Diese Schwächen können zu instabilen Trainingsprozessen und suboptimalen Ressourcenzuweisungen führen.
Die neue Studie kombiniert den SAC‑Algorithmus mit Sharpness‑Aware Minimization (SAM) in einem verteilten Multi‑Agent‑RL‑Framework. Dabei wird SAM adaptiv und selektiv eingesetzt: Die Regularisierung wird ausschließlich bei Agenten aktiviert, die aufgrund einer hohen Varianz im Temporal‑Difference‑Error (TD‑Error) mit komplexen Umgebungen konfrontiert sind. Zusätzlich wird ein dynamisches Rho‑Scheduling eingeführt, das die Balance zwischen Exploration und Exploitation über die Agenten hinweg feinjustiert.
Experimentelle Ergebnisse zeigen, dass dieser Ansatz die Effizienz der Ressourcenzuweisung um bis zu 22 % steigert und gleichzeitig die QoS‑Zufriedenheit in unterschiedlichen O‑RAN‑Slices deutlich verbessert. Damit demonstriert die Methode eine robuste und generalisierbare Lösung für die dynamische Netzwerkverwaltung.