Neue Lernmethode steigert OCR-Leistung bei formatierten Dokumenten
Die Erkennung von Text in Bildern und gescannten Dokumenten bleibt ein zentrales Forschungsfeld. Trotz moderner OCR‑Modelle zeigen sich bei formatierten Inhalten wie Formeln oder Tabellen deutlich höhere Unsicherheiten, die die Genauigkeit stark beeinträchtigen.
Um diesem Problem zu begegnen, hat ein Forschungsteam ein neues Verfahren namens Format Decoupled Reinforcement Learning (FD‑RL) entwickelt. Das System nutzt ein auf Entropie basierendes Filtern, um besonders formatintensive Beispiele zu identifizieren, und setzt formatspezifische Belohnungen ein, die die Validierung auf Ebene der Formatierung statt einzelner Tokens ermöglichen.
Durch diese gezielte Optimierung erzielt FD‑RL einen durchschnittlichen Score von 90,41 auf dem OmniDocBench‑Benchmark – ein neuer Rekord für End‑to‑End‑Modelle. Umfangreiche Ablationsstudien zu Daten, Training, Filterung und Belohnungsstrategien bestätigen die Wirksamkeit des Ansatzes.