Neues Benchmark prüft KI-Verständnis kompletter Partituren
In einer wegweisenden Studie wurde das Musical Score Understanding Benchmark (MSU‑Bench) vorgestellt, das die Fähigkeit von Large Language Models (LLMs) und Vision‑Language Models (VLMs) zur Analyse kompletter musikalischer Partituren systematisch bewertet. Das Benchmark besteht aus 1 800 generativen Frage‑Antwort‑Paaren, die aus Werken von Bach, Beethoven, Chopin, Debussy und weiteren Komponisten stammen und vier aufeinander aufbauende Verständnisstufen abdecken: Onset‑Information, Notation & Note, Chord & Harmony sowie Texture & Form.
Durch umfangreiche Zero‑Shot‑Tests und gezielte Fine‑Tuning‑Experimente an über 15 hochmodernen Modellen wurden deutliche Unterschiede zwischen Text‑ (ABC‑Notation) und Bild‑ (PDF) Modalen aufgedeckt. Die Ergebnisse zeigen, dass die Modelle zwar bei einfachen Fragen gut abschneiden, jedoch bei komplexeren, mehrstufigen Aufgaben stark an ihre Grenzen stoßen. Fine‑Tuning verbessert die Leistung signifikant, ohne das allgemeine Wissen zu beeinträchtigen, und demonstriert damit das Potenzial, KI‑Modelle gezielt für musikalische Analyse zu optimieren.
MSU‑Bench bietet damit eine robuste Grundlage für zukünftige Forschung an der Schnittstelle von künstlicher Intelligenz, Musikologie und multimodaler Logik. Es ermöglicht Forschern, Fortschritte zu messen, Lücken zu identifizieren und gezielt an der Entwicklung von Modellen zu arbeiten, die Musik nicht nur erkennen, sondern auch verstehen können.