SchemaCoder: Automatisierte Log‑Schema‑Extraktion ohne menschliche Eingriffe
Die Extraktion von Log‑Schemas – also die Umwandlung riesiger Log‑Dateien in leicht verständliche Vorlagen – ist ein zentraler, aber gleichzeitig sehr arbeitsintensiver Schritt in der Datenanalyse. Trotz der jüngsten Fo…
- Die Extraktion von Log‑Schemas – also die Umwandlung riesiger Log‑Dateien in leicht verständliche Vorlagen – ist ein zentraler, aber gleichzeitig sehr arbeitsintensiver…
- Trotz der jüngsten Fortschritte, bei denen große Sprachmodelle (LLMs) eingesetzt werden, bleiben die meisten Ansätze auf vordefinierte reguläre Ausdrücke angewiesen, was…
- Mit SchemaCoder wird dieses Problem grundlegend gelöst.
Die Extraktion von Log‑Schemas – also die Umwandlung riesiger Log‑Dateien in leicht verständliche Vorlagen – ist ein zentraler, aber gleichzeitig sehr arbeitsintensiver Schritt in der Datenanalyse. Trotz der jüngsten Fortschritte, bei denen große Sprachmodelle (LLMs) eingesetzt werden, bleiben die meisten Ansätze auf vordefinierte reguläre Ausdrücke angewiesen, was den Bedarf an Fachwissen erhöht und die Produktivität stark einschränkt.
Mit SchemaCoder wird dieses Problem grundlegend gelöst. Das System ist das erste vollständig automatisierte Framework, das für eine breite Palette von Log‑Dateiformaten ohne jegliche menschliche Anpassung funktioniert. Im Kern nutzt es einen neuartigen Residual Question‑Tree (Q‑Tree) Boosting‑Mechanismus, der die Schema‑Extraktion durch gezielte, adaptive Anfragen an LLMs iterativ verfeinert.
Der Ansatz teilt die Logs zunächst in semantische Abschnitte auf, wählt repräsentative Muster mittels embeddingsbasierter Stichproben aus und erzeugt die Schema‑Codes durch hierarchische Q‑Tree‑gestützte LLM‑Abfragen. Ein textbasierter evolutionärer Optimierer und ein Residual‑Boosting‑Modul sorgen dafür, dass die Ergebnisse kontinuierlich verbessert werden.
Die experimentellen Ergebnisse zeigen, dass SchemaCoder auf dem weit verbreiteten LogHub‑2.0 Benchmark im Durchschnitt 21,3 % besser abschneidet als die aktuellen Spitzenmethoden – ein deutlicher Fortschritt für die automatisierte Log‑Analyse.
Welche Linse du auf diese Meldung legen solltest
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.