Automatisierte Extraktion von Lehrbuchfragen – neue Pipeline für QA‑Daten
Ein neues Verfahren namens FlipVQA‑Miner ermöglicht es, aus Lehrbüchern und Übungsmaterialien automatisch hochwertige Frage‑Antwort‑Paare (QA) sowie visuelle Frage‑Antwort‑Paare (VQA) zu extrahieren. Durch die Kombination von layout‑sensitiven OCR‑Techniken mit semantischer Analyse durch große Sprachmodelle (LLMs) werden die Inhalte strukturiert und in ein formatgerechtes Format überführt, das für das Training von KI‑Modellen geeignet ist.
Die Methode nutzt die Fähigkeit moderner OCR‑ und Vision‑Language‑Modelle, Dokumentenstrukturen präzise zu erkennen, ergänzt diese jedoch um eine semantische Ausrichtung, die bisher bei automatischen Extraktionen fehlte. Dadurch entstehen QA‑ und VQA‑Paare, die nicht nur korrekt, sondern auch wenig Rauschen enthalten und somit ideal für das supervised‑Learning von LLMs sind.
Durch die Anwendung der Pipeline auf verschiedene Dokumenttypen konnten die Autoren zeigen, dass die extrahierten Daten eine hohe Genauigkeit und Konsistenz aufweisen. Dies eröffnet die Möglichkeit, reale Lehrmaterialien als kostengünstige Alternative zu synthetisch generierten Trainingsdaten zu nutzen und damit die Qualität von reasoning‑orientierten Sprachmodellen nachhaltig zu verbessern.
Alle Code‑ und Datenverarbeitungs‑Pipelines sind öffentlich zugänglich unter https://github.com/OpenDCAI/DataFlow.