Effiziente Bereitstellung von CNN-Modellen auf mehreren IMC-Einheiten
In-Memory Computing (IMC) markiert einen Wendepunkt in der Beschleunigung von Deep‑Learning‑Modellen, indem es die Engpässe bei Datenbewegungen reduziert und die inhärente Parallelität von speicherbasierten Berechnungen nutzt. Für die effiziente Bereitstellung von Convolutional Neural Networks (CNNs) auf IMC‑Hardware ist daher eine hochentwickelte Aufgabenverteilung entscheidend.
In dieser Studie wird ein IMC‑Emulator (IMCE) mit mehreren Verarbeitungseinheiten (PUs) eingesetzt, um zu untersuchen, wie die Verteilung eines CNN‑Modells in einem Mehrprozessorsystem die Leistung – gemessen an Durchsatz und Latenz – beeinflusst. Hierfür wird der Load‑Balance‑Longest‑Path (LBLP)-Algorithmus vorgestellt, der sämtliche CNN‑Knoten dynamisch den verfügbaren IMCE‑PUs zuweist. Ziel ist es, den Durchsatz zu maximieren und die Latenz durch effiziente Ressourcennutzung zu minimieren.
Die Leistung von LBLP wird gegen alternative Scheduling‑Strategien für mehrere CNN‑Modelle verglichen. Die experimentellen Ergebnisse zeigen deutlich, dass der vorgeschlagene Algorithmus die Effizienz der Bereitstellung auf IMC‑Einheiten signifikant verbessert.