Forschung arXiv – cs.AI

SchemaCoder: Automatisierte Log‑Schema‑Extraktion ohne menschliche Eingriffe

Die Extraktion von Log‑Schemas – also die Umwandlung riesiger Log‑Dateien in leicht verständliche Vorlagen – ist ein zentraler, aber gleichzeitig sehr arbeitsintensiver Schritt in der Datenanalyse. Trotz der jüngsten Fo…

≈1 Min. Lesezeit Originalquelle
Kernaussagen
Das nimmst du aus dem Beitrag mit
  • Die Extraktion von Log‑Schemas – also die Umwandlung riesiger Log‑Dateien in leicht verständliche Vorlagen – ist ein zentraler, aber gleichzeitig sehr arbeitsintensiver…
  • Trotz der jüngsten Fortschritte, bei denen große Sprachmodelle (LLMs) eingesetzt werden, bleiben die meisten Ansätze auf vordefinierte reguläre Ausdrücke angewiesen, was…
  • Mit SchemaCoder wird dieses Problem grundlegend gelöst.

Die Extraktion von Log‑Schemas – also die Umwandlung riesiger Log‑Dateien in leicht verständliche Vorlagen – ist ein zentraler, aber gleichzeitig sehr arbeitsintensiver Schritt in der Datenanalyse. Trotz der jüngsten Fortschritte, bei denen große Sprachmodelle (LLMs) eingesetzt werden, bleiben die meisten Ansätze auf vordefinierte reguläre Ausdrücke angewiesen, was den Bedarf an Fachwissen erhöht und die Produktivität stark einschränkt.

Mit SchemaCoder wird dieses Problem grundlegend gelöst. Das System ist das erste vollständig automatisierte Framework, das für eine breite Palette von Log‑Dateiformaten ohne jegliche menschliche Anpassung funktioniert. Im Kern nutzt es einen neuartigen Residual Question‑Tree (Q‑Tree) Boosting‑Mechanismus, der die Schema‑Extraktion durch gezielte, adaptive Anfragen an LLMs iterativ verfeinert.

Der Ansatz teilt die Logs zunächst in semantische Abschnitte auf, wählt repräsentative Muster mittels embeddingsbasierter Stichproben aus und erzeugt die Schema‑Codes durch hierarchische Q‑Tree‑gestützte LLM‑Abfragen. Ein textbasierter evolutionärer Optimierer und ein Residual‑Boosting‑Modul sorgen dafür, dass die Ergebnisse kontinuierlich verbessert werden.

Die experimentellen Ergebnisse zeigen, dass SchemaCoder auf dem weit verbreiteten LogHub‑2.0 Benchmark im Durchschnitt 21,3 % besser abschneidet als die aktuellen Spitzenmethoden – ein deutlicher Fortschritt für die automatisierte Log‑Analyse.

Einordnen in 60 Sekunden

Welche Linse du auf diese Meldung legen solltest

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

Was veraendert sich praktisch?
Ist das eher Signal, Produkt oder nur kurzfristiger Hype?
Welches konkrete Problem loest das Modell besser als bisher?
Begriffe zum Einordnen

Kontext ohne Glossar-Suche

Log-Schema
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
LLM
LLMs sind Sprachmodelle, die Text verstehen, erzeugen und in Produkte eingebettet werden.
SchemaCoder
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
arXiv – cs.AI
Diese Quelle setzt den Ausgangspunkt fuer die Meldung. Pruefe immer, ob sie eher Forschung, Produktmarketing oder Praxisperspektive liefert.
Naechste Schritte

Aehnliche Entwicklungen zum Weiterlesen