NeMo: Modularisieren während des Trainings optimiert DNN-Entwicklung
Mit der zunehmenden Verbreitung von Deep‑Neural‑Network‑Modellen in modernen Softwaresystemen steigen die Kosten für deren Aufbau und Training rapide an. Um diese Kosten zu senken, wird häufig auf die Wiederverwendung kompletter Modelle zurückgegriffen. Doch das indiscriminierte Nutzen ganzer Modelle führt oft zu erheblichen Laufzeit‑Overheads. Hier setzt die Idee der DNN‑Modularisierung an: Durch das Zerlegen von Modellen in wiederverwendbare Module kann die Effizienz gesteigert werden.
Das neuartige „Modularisieren‑während‑Training“ (MwT) Paradigma integriert die Modularisierung bereits in den Trainingsprozess und übertrifft damit klassische MwT‑Ansätze, die erst nach dem Training modularisieren. Bisher konzentrierten sich MwT‑Methoden jedoch auf kleine CNN‑Modelle und operierten auf der Ebene einzelner Convolution‑Kerne. Diese Beschränkung verhindert die Anwendung auf vielfältige DNN‑Architekturen und besonders auf große Transformer‑Modelle.
NeMo löst dieses Problem, indem es die Modularisierung auf neuronaler Ebene durchführt – ein Grundbaustein, der allen DNN‑Architekturen gemeinsam ist. Durch ein kontrastives Lernverfahren kombiniert mit einer effektiven zusammengesetzten Verlustfunktion wird die Skalierbarkeit auf große Modelle gewährleistet. Die Methode ist damit sowohl für klassische CNNs als auch für Transformer‑basierte Modelle geeignet.
Um die Leistungsfähigkeit von NeMo zu demonstrieren, wurden umfangreiche Experimente an zwei Transformer‑Modellen und vier CNN‑Modellen auf zwei Klassifikationsdatensätzen durchgeführt. Im Vergleich zu führenden MwT‑Methoden erzielte NeMo durchschnittlich 1,72 % höhere Genauigkeit bei der Modulklassifikation und reduzierte die Modulgröße um 58,10 %. Diese Ergebnisse zeigen, dass NeMo sowohl bei kleinen als auch bei großen Modellen eine deutliche Verbesserung bringt.
Eine Fallstudie an einem Open‑Source‑Projekt verdeutlicht die praktische Anwendbarkeit von NeMo und bestätigt die erzielten Effizienzgewinne in realen Szenarien. NeMo stellt damit einen bedeutenden Fortschritt in der modularen Entwicklung von Deep‑Learning‑Modellen dar und eröffnet neue Möglichkeiten für die effiziente Nutzung von DNNs in der Industrie.