Docs2Synth: KI-gestütztes Retrieval-Framework für sichere Dokumentenverständnis

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

In stark regulierten Bereichen ist das Verständnis von gescannten Dokumenten besonders schwierig, weil sie sensible, sich ständig ändernde und domänenspezifische Informationen enthalten. Zwei zentrale Probleme sind dabei: fehlende manuelle Annotationen für die Anpassung von Modellen und die Schwierigkeit, vortrainierte Modelle aktuell zu halten.

Docs2Synth löst diese Probleme mit einem synthetischen Trainingsframework, das Retrieval‑gestützte Inferenz für private und ressourcenarme Domänen ermöglicht. Das System verarbeitet Rohdokumente, erzeugt und prüft automatisch vielfältige Frage‑Antwort‑Paare und trainiert einen leichten visuellen Retriever, der domänenspezifische Beweise extrahiert.

Während der Inferenz arbeitet der Retriever mit einem multimodalen großen Sprachmodell (MLLM) in einem iterativen Retrieval‑Generation‑Loop zusammen. Dieser Ansatz reduziert Halluzinationen, erhöht die Konsistenz der Antworten und sorgt für ein stärkeres Domain‑Grounding.

Docs2Synth wird als benutzerfreundliches Python‑Paket bereitgestellt, das Plug‑and‑Play‑Deployment in verschiedensten realen Szenarien ermöglicht. Experimente an mehreren VRDU‑Benchmarks zeigen, dass das Framework die Grounding‑Qualität und die Domänen­generalisierung deutlich verbessert – und das ohne menschliche Annotationen.

Ähnliche Artikel