Suche

Finde Modelle, Firmen und Themen

Suche im News-Archiv nach Themen, die du dauerhaft verfolgen willst.

Ergebnisse für “OCR”
Forschung

<p>IRPAPERS: Benchmark für visuelle Dokumentensuche und Fragenbeantwortung</p> <p>Die neue Studie IRPAPERS liefert einen umfassenden Teststand für die Verarbeitung von wissenschaftlichen Dokumenten in Bildform. Im Gegensatz zu herkömmlichen Ansätzen, die auf OCR-Transkriptionen angewiesen sind, untersucht die Arbeit, wie moderne multimodale Modelle direkt aus Bilddaten zurückgreifen können.</p> <p>Der Datensatz umfasst 3.230 Seiten aus 166 wissenschaftlichen Arbeiten. Für jede Seite stehen sowohl das Origin

arXiv – cs.AI
Forschung

<p>DemPO: Sortition-basierte KI-Alignment für repräsentative Werte</p> <p>In einer neuen Studie auf arXiv wird ein Ansatz vorgestellt, der die Werte, die KI-Systeme lernen sollen, demokratisch bestimmen soll. Der sogenannte Democratic Preference Optimization (DemPO) nutzt Sortition – die gleiche Methode, die bei Bürgerforen eingesetzt wird – um aus einer breiten Bevölkerung repräsentative Rater zu ziehen. Dadurch soll die Verzerrung, die bei herkömmlichen RLHF-Methoden entsteht, reduziert werden.</p> <p>Dem

arXiv – cs.AI
Forschung

<h1>Wie viel Information kann ein Vision-Token speichern? Skalierungsregel für VLMs</h1> <p>Neueste vision‑zentrierte Modelle, wie DeepSeek‑OCR, haben die Fähigkeit, Text in Bildern in kontinuierliche Vision‑Tokens zu kodieren, ohne dabei die Erkennungsgenauigkeit zu verlieren. Durch diese hohe Kompression entsteht jedoch die Frage nach der maximalen Informationsmenge, die ein einzelner Token tragen kann.</p> <p>Um diese Grenze zu bestimmen, führten die Forscher gezielte Belastungstests durch, bei denen sie

arXiv – cs.LG
Forschung

<p>LLMs lernen durch Fragen: Studie zeigt Lernende verbessern Wissen</p> <p>In einer neuen Veröffentlichung auf arXiv wird gezeigt, dass große Sprachmodelle (LLMs) nicht nur in statischen Dialogen glänzen, sondern auch durch gezielte Fragen aktiv neues Wissen erwerben können. Während klassische Anwendungen wie Tutoren oder medizinische Assistenten oft auf bereits eingebettetes Wissen zurückgreifen, demonstriert die Studie, wie ein interaktiver Agent seine Unsicherheit erkennt, gezielte Fragen stellt und die

arXiv – cs.AI