Neues Framework CCLH verbessert Root-Cause-Analyse in Microservice-Systemen

Ein neues Paper auf arXiv (Version 1, 25.11.2026) präsentiert CCLH, ein innovatives Verfahren zur Fehlerursachenanalyse in Microservice‑Architekturen. Die Analyse von Microservices umfasst üblicherweise zwei zentrale Aufgaben: die Lokalisierung der eigentlichen Fehlerursache (Root Cause Localization, RCL) und die Identifikation des Fehlertyps (Failure Type Identification, FTI).

Traditionelle Diagnosemethoden stoßen dabei auf zwei Hauptprobleme. Erstens setzen die meisten Ansätze ein gemeinsames Lernmodell für RCL und FTI ein, um gemeinsam genutzte Informationen auszunutzen und die Trainingszeit zu verkürzen. Diese Vereinfachung ignoriert jedoch die kausalen Abhängigkeiten zwischen den beiden Aufgaben, was die Zusammenarbeit und den Informationsaustausch zwischen ihnen behindert. Zweitens konzentrieren sich bestehende Verfahren vorwiegend auf punktuelle Beziehungen zwischen einzelnen Instanzen und vernachlässigen die gruppenbasierten Einflüsse, die durch Deployment‑Konfigurationen und Lastenausgleich entstehen.

CCLH löst diese Probleme, indem es die diagnostischen Aufgaben in einer kaskadierten, bedingten Lernstruktur organisiert. Das Verfahren bietet eine dreistufige Taxonomie für gruppenbasierte Einflüsse zwischen Instanzen und nutzt ein heterogenes Hypergraphenmodell, um diese Beziehungen abzubilden. Dadurch kann die Ausbreitung von Fehlern simuliert und besser verstanden werden.

Umfangreiche Experimente an Datensätzen aus drei Microservice‑Benchmarks zeigen, dass CCLH sowohl bei der Lokalisierung der Fehlerursache als auch bei der Fehlertypidentifikation die aktuellen Spitzenmethoden übertrifft. Das neue Framework stellt damit einen bedeutenden Fortschritt für die zuverlässige Wartung und Fehlersuche in verteilten Microservice‑Systemen dar.