Suche nach OCR | meineki.news

SPRIG: CPU-basierte Graphsuche für Multi-Hop-Fragen ohne GPU

Die neue Methode SPRIG (Seeded Propagation for Retrieval In Graphs) ermöglicht GraphRAG-Systeme ohne GPU und ohne Token-Kosten. Im Gegensat…

arXiv – cs.AI 02.03.2026 05:00

Praxis

FireRedTeam präsentiert FireRed-OCR-2B: Halluzinationen in Tabellen und LaTeX

Die Digitalisierung von Dokumenten ist seit langem ein mehrstufiges Problem: Zunächst muss das Layout erkannt, anschließend der Text extrah…

MarkTechPost 02.03.2026 06:38

Forschung

Llama-3 löst Addition durch letzte Token-Ausgabe und rotierende Ziffernrichtung

Eine neue Studie auf arXiv untersucht, wie Meta‑Llama‑3‑8B bei dreistelligen Additionen die Ergebnisse abschließt, sobald die Kreuz‑Token‑R…

arXiv – cs.AI 24.02.2026 05:00

Forschung

IRPAPERS: Benchmark für visuelle Dokumentensuche und Fragenbeantwortung Die neue Studie IRPAPERS liefert einen umfassenden Teststand für die Verarbeitung von wissenschaftlichen Dokumenten in Bildform. Im Gegensatz zu herkömmlichen Ansätzen, die auf OCR-Transkriptionen angewiesen sind, untersucht die Arbeit, wie moderne multimodale Modelle direkt aus Bilddaten zurückgreifen können. Der Datensatz umfasst 3.230 Seiten aus 166 wissenschaftlichen Arbeiten. Für jede Seite stehen sowohl das Origin

arXiv – cs.AI 23.02.2026 05:00

Forschung

FLoRG: Federiertes Feintuning mit Low‑Rank‑Gram‑Matrizen und Procrustes‑Alignment

Parameter‑effiziente Feintuning‑Methoden wie Low‑Rank‑Adaptation (LoRA) ermöglichen es großen Sprachmodellen, sich schnell an neue Aufgaben…

arXiv – cs.LG 20.02.2026 05:00

Forschung

Neues KI-System übertrifft GPT-5 bei Endokrinologie-Boardprüfung

Ein neu entwickeltes KI-System namens Mirror hat bei einer 120-Fragen-Boardprüfung im Bereich Endokrinologie die Leistung von führenden Spr…

arXiv – cs.AI 19.02.2026 05:00

Forschung

COMPOT: Trainingfreie Kompression von Transformers mit Procrustes‑Optimierung

In der Praxis wird die Kompression von Transformer‑Modellen häufig mit einer abgeschnittenen Singulärwertzerlegung (SVD) durchgeführt. Dies…

arXiv – cs.LG 18.02.2026 05:00

Aktuell

Aristoteles und Sokrates lehren uns: Generative KI richtig nutzen

Ein erfahrener Google-Ingenieur betont, dass KI-Modelle uns dabei unterstützen sollen, unsere eigenen Denkprozesse zu schärfen, anstatt vor…

ZDNet – Artificial Intelligence 18.02.2026 01:12

Forschung

Blueprint: Multimodales Suchsystem revolutioniert die Suche in Archiven

Ein neues Tool namens Blueprint hat die Art und Weise, wie Ingenieure auf jahrzehntelange technische Zeichnungen und Dokumente zugreifen, g…

arXiv – cs.LG 17.02.2026 05:00

Forschung

Trifuse: Mehr Genauigkeit bei GUI‑Übersetzung durch multimodale Fusion

Die neue Methode Trifuse verbessert die Zuordnung von Sprachbefehlen zu grafischen Benutzeroberflächen (GUI) erheblich, ohne dass dafür rie…

arXiv – cs.AI 09.02.2026 05:00

Forschung

DemPO: Sortition-basierte KI-Alignment für repräsentative Werte In einer neuen Studie auf arXiv wird ein Ansatz vorgestellt, der die Werte, die KI-Systeme lernen sollen, demokratisch bestimmen soll. Der sogenannte Democratic Preference Optimization (DemPO) nutzt Sortition – die gleiche Methode, die bei Bürgerforen eingesetzt wird – um aus einer breiten Bevölkerung repräsentative Rater zu ziehen. Dadurch soll die Verzerrung, die bei herkömmlichen RLHF-Methoden entsteht, reduziert werden. Dem

arXiv – cs.AI 06.02.2026 05:00

Forschung

DeepRead: Strukturierte Dokumentenlogik steigert agentische Suche

Ein neues Forschungsprojekt namens DeepRead hat gezeigt, dass die Berücksichtigung der natürlichen Struktur von Dokumenten die Leistung von…

arXiv – cs.AI 06.02.2026 05:00

Produkt

BGL nutzt Claude SDK & Amazon Bedrock für KI-Agent

BGL ist ein führender Anbieter von selbstverwalteten Rentenfonds‑Lösungen (SMSF). Das Unternehmen unterstützt Privatpersonen und ihre Kunde…

AWS – Machine Learning Blog 03.02.2026 20:28

Forschung

<h1>Wie viel Information kann ein Vision-Token speichern? Skalierungsregel für VLMs</h1> Neueste vision‑zentrierte Modelle, wie DeepSeek‑OCR, haben die Fähigkeit, Text in Bildern in kontinuierliche Vision‑Tokens zu kodieren, ohne dabei die Erkennungsgenauigkeit zu verlieren. Durch diese hohe Kompression entsteht jedoch die Frage nach der maximalen Informationsmenge, die ein einzelner Token tragen kann. Um diese Grenze zu bestimmen, führten die Forscher gezielte Belastungstests durch, bei denen sie

arXiv – cs.LG 04.02.2026 05:00

Forschung

Cross-Modal Memory Compression für effiziente Mehragenten-Debatten

Mehragenten-Debatten können die Qualität von Argumenten steigern und Halluzinationen reduzieren, doch mit jeder Debattenrunde und jedem zus…

arXiv – cs.AI 03.02.2026 05:00

Forschung

MemOCR: Visuelle Speicherlösung für effizientes Langzeit-Reasoning

Die neueste Forschung aus dem Bereich der künstlichen Intelligenz präsentiert MemOCR, einen multimodalen Speicheragenten, der die Herausfor…

arXiv – cs.AI 30.01.2026 05:00

Praxis

DeepSeek AI präsentiert DeepSeek‑OCR 2: Neuer OCR‑Ansatz mit kausaler Bildfluss‑Encoder

DeepSeek AI hat die neue Version DeepSeek‑OCR 2 veröffentlicht, ein Open‑Source-System für optische Zeichenerkennung und Dokumentverständni…

MarkTechPost 30.01.2026 08:21

Forschung

MMR-Bench: Neuer Standard für multimodale LLM‑Routing

In der Forschung zu multimodalen großen Sprachmodellen (MLLMs) hat sich die Vielfalt an Architekturen, Ausrichtungsstrategien und Effizienz…

arXiv – cs.AI 27.01.2026 05:00

Forschung

Neues Dreieck-Modell vergleicht neuronale Netzwerke umfassend

Wissenschaftler haben ein innovatives „Triangle of Similarity“ entwickelt, das neuronale Netzwerke aus drei Blickwinkeln bewertet: statisch…

arXiv – cs.LG 27.01.2026 05:00

Aktuell

KI-Bot-Schwärme gefährden Demokratie – Fake-Majoritäten brechen Vertrauen

In den letzten Jahren haben sich KI‑gestützte Bots zu einer wachsenden Bedrohung für demokratische Prozesse entwickelt. Durch die Fähigkeit…

Gary Marcus – Marcus on AI 23.01.2026 10:20

Forschung

KI-gestützte Reflexionsfragen: Zwei-Agenten-Framework verbessert Qualität

Eine neue Studie zeigt, wie KI-basierte Sprachmodelle Lehrkräfte bei der Erstellung von Reflexionsfragen unterstützen können. Durch einen s…

arXiv – cs.LG 22.01.2026 05:00

Aktuell

KI‑gesteuerte Desinformations‑Wellen bedrohen die Demokratie

Fortschritte in der künstlichen Intelligenz erzeugen eine perfekte Sturmlandschaft, die es Akteuren ermöglicht, Desinformation schneller un…

Wired – AI (Latest) 22.01.2026 19:00

Forschung

Plausibilitätsfalle: Warum KI-Modelle bei einfachen Aufgaben verschwenden

Die allgegenwärtigen Large Language Models (LLMs) verändern die Art und Weise, wie wir mit Technologie umgehen. Ein neues Papier aus dem ar…

arXiv – cs.AI 22.01.2026 05:00

Forschung

VisTIRA schließt Bild-Text-Lücke in visueller Mathematik

Vision‑Language‑Modelle (VLMs) schneiden bei mathematischem Denken schlechter ab als reine Text‑Modelle, wenn dieselben Aufgaben als Bilder…

arXiv – cs.AI 22.01.2026 05:00

Forschung

Neue Lernmethode steigert OCR-Leistung bei formatierten Dokumenten

Die Erkennung von Text in Bildern und gescannten Dokumenten bleibt ein zentrales Forschungsfeld. Trotz moderner OCR‑Modelle zeigen sich bei…

arXiv – cs.AI 15.01.2026 05:00

Praxis

Mistral AI stellt OCR 3 vor: Modell für strukturierte Dokumentenverarbeitung

Mistral AI hat sein neuestes OCR-Modell, Mistral OCR 3, vorgestellt. Das Modell, unter dem Namen mistral-ocr-2512 bekannt, ist speziell daf…

MarkTechPost 19.12.2025 19:26

Forschung

KI-Modelle GPT-4o & Gemini 2.5 im Koreanischen CSAT: Erkenntnisse zur Argumentation

Die rasante Entwicklung generativer KI verändert die Bildungslandschaft nachhaltig. In einem aktuellen Forschungsprojekt wurden die multimo…

arXiv – cs.AI 18.12.2025 05:00

Aktuell

Mistral präsentiert OCR 3: 74 % Erfolgsquote, 2 $ pro 1.000 Seiten

Mistral AI, das französische KI-Unternehmen mit einem Marktwert von 11,7 Milliarden Euro, hat am Dienstag sein neuestes Produkt, das OCR 3…

VentureBeat – AI 17.12.2025 14:00

Forschung

LLMs lernen durch Fragen: Studie zeigt Lernende verbessern Wissen In einer neuen Veröffentlichung auf arXiv wird gezeigt, dass große Sprachmodelle (LLMs) nicht nur in statischen Dialogen glänzen, sondern auch durch gezielte Fragen aktiv neues Wissen erwerben können. Während klassische Anwendungen wie Tutoren oder medizinische Assistenten oft auf bereits eingebettetes Wissen zurückgreifen, demonstriert die Studie, wie ein interaktiver Agent seine Unsicherheit erkennt, gezielte Fragen stellt und die

arXiv – cs.AI 16.12.2025 05:00

Forschung

AI-Benchmarks: Demokratisierung und neue Werkstatt für dynamische Tests

Benchmarks bilden das Fundament moderner KI‑Forschung, indem sie Reproduzierbarkeit, Vergleichbarkeit und wissenschaftlichen Fortschritt er…

arXiv – cs.AI 15.12.2025 05:00

Finde Modelle, Firmen und Themen

SPRIG: CPU-basierte Graphsuche für Multi-Hop-Fragen ohne GPU

FireRedTeam präsentiert FireRed-OCR-2B: Halluzinationen in Tabellen und LaTeX

Llama-3 löst Addition durch letzte Token-Ausgabe und rotierende Ziffernrichtung

FLoRG: Federiertes Feintuning mit Low‑Rank‑Gram‑Matrizen und Procrustes‑Alignment

Neues KI-System übertrifft GPT-5 bei Endokrinologie-Boardprüfung

COMPOT: Trainingfreie Kompression von Transformers mit Procrustes‑Optimierung

Aristoteles und Sokrates lehren uns: Generative KI richtig nutzen

Blueprint: Multimodales Suchsystem revolutioniert die Suche in Archiven

Trifuse: Mehr Genauigkeit bei GUI‑Übersetzung durch multimodale Fusion

DeepRead: Strukturierte Dokumentenlogik steigert agentische Suche

BGL nutzt Claude SDK & Amazon Bedrock für KI-Agent

Cross-Modal Memory Compression für effiziente Mehragenten-Debatten

MemOCR: Visuelle Speicherlösung für effizientes Langzeit-Reasoning

DeepSeek AI präsentiert DeepSeek‑OCR 2: Neuer OCR‑Ansatz mit kausaler Bildfluss‑Encoder

MMR-Bench: Neuer Standard für multimodale LLM‑Routing

Neues Dreieck-Modell vergleicht neuronale Netzwerke umfassend

KI-Bot-Schwärme gefährden Demokratie – Fake-Majoritäten brechen Vertrauen

KI-gestützte Reflexionsfragen: Zwei-Agenten-Framework verbessert Qualität

KI‑gesteuerte Desinformations‑Wellen bedrohen die Demokratie

Plausibilitätsfalle: Warum KI-Modelle bei einfachen Aufgaben verschwenden

VisTIRA schließt Bild-Text-Lücke in visueller Mathematik

Neue Lernmethode steigert OCR-Leistung bei formatierten Dokumenten

Mistral AI stellt OCR 3 vor: Modell für strukturierte Dokumentenverarbeitung

KI-Modelle GPT-4o & Gemini 2.5 im Koreanischen CSAT: Erkenntnisse zur Argumentation

Mistral präsentiert OCR 3: 74 % Erfolgsquote, 2 $ pro 1.000 Seiten

AI-Benchmarks: Demokratisierung und neue Werkstatt für dynamische Tests

🍪 Cookie-Einstellungen

DeepSeek AI präsentiert DeepSeek‑OCR 2: Neuer OCR‑Ansatz mit kausaler Bildfluss‑Encoder

Mistral präsentiert OCR 3: 74 % Erfolgsquote, 2 $ pro 1.000 Seiten