Suche nach multimodale Large Language Models

Neues Tool UMPIRE verbessert Unsicherheitsmessung bei multimodalen Sprachmodellen

Multimodale Large Language Models (MLLMs) können zwar beeindruckende Ergebnisse liefern, aber sie erzeugen oft plausible, aber fehlerhafte…

arXiv – cs.AI 02.03.2026 05:00

Forschung

TPRU: Datensatz für zeitliches und prozedurales Verständnis in Modellen

Multimodale Large Language Models (MLLMs) stoßen häufig an die Grenze, wenn es darum geht, zeitliche Abläufe und prozedurale Abläufe in vis…

arXiv – cs.AI 24.02.2026 05:00

Forschung

MeGU: Maschinelles Unlernen mit gezielter Feature‑Entkoppelung

Der Schutz von Trainingsdaten hat das „Recht auf Vergessen“ zu einer zentralen Anforderung gemacht. Gleichzeitig wächst die Nachfrage nach…

arXiv – cs.LG 20.02.2026 05:00

Forschung

Adaptive Modality-Steering für multimodale LLMs dank funktioneller Entropie

Multimodale Large Language Models (MLLMs) zeigen häufig eine starke Präferenz für eine bestimmte Modalität – sei es Sprache oder Bild – was…

arXiv – cs.LG 16.02.2026 05:00

Forschung

PRISM-XR: Datenschutzfreundliche XR‑Kollaboration mit multimodalen LLMs

In einer wegweisenden Entwicklung für die erweiterte Realität (XR) präsentiert PRISM‑XR ein innovatives Framework, das die Zusammenarbeit v…

arXiv – cs.AI 12.02.2026 05:00

Forschung

<p>Effiziente Tabellenabfrage und -verständnis mit multimodalen Sprachmodellen</p> <p>Tabellen, die als Bilder vorliegen – etwa in Finanzberichten, handschriftlichen Aufzeichnungen oder gescannten Dokumenten – stellen besondere Herausforderungen für die maschinelle Analyse dar. Sie vereinen strukturelle und visuelle Komplexität, die bislang nur schwer zu bewältigen ist.</p> <p>Moderne multimodale Large Language Models (MLLMs) haben zwar vielversprechende Fortschritte im Tabellenverständnis erzielt, gehen je

arXiv – cs.AI 10.02.2026 05:00

Forschung

MAD: Modality-Adaptive Decoding reduziert Halluzinationen in multimodalen LLMs

Multimodale Large Language Models (MLLMs) leiden häufig unter sogenannten Cross‑Modal‑Halluzinationen, bei denen eine Modalität unpassend E…

arXiv – cs.AI 30.01.2026 05:00

Forschung

MemCtrl als aktive Gedächtniskontrolle: MemCtrl steigert Agentenleistung

In der neuesten Studie von MemCtrl wird gezeigt, wie Multimodale Large Language Models (MLLMs) als aktive Gedächtniskontrolle für eingebett…

arXiv – cs.AI 29.01.2026 05:00

Forschung

Omni‑R1: Einheitliches generatives Modell für multimodale Logik

Multimodale Large Language Models (MLLMs) haben in den letzten Jahren enorme Fortschritte bei der multimodalen Logik erzielt. Während frühe…

arXiv – cs.AI 15.01.2026 05:00

Forschung

Sicherheits-Boost für Sprachmodelle: Parameter‑Space schützt vor Angriffen

Medizinische Multimodale Large Language Models (MLLMs) haben in den letzten Jahren enorme Fortschritte bei spezialisierten medizinischen Au…

arXiv – cs.LG 09.01.2026 05:00

Forschung

<h1>MLLMs mit Bild-Tools: Ophiuchus verbessert medizinische Bildanalyse</h1> <p>In der medizinischen Bildanalyse haben sich multimodale Large Language Models (MLLMs) bereits durch die Fähigkeit, schrittweise textuelle Argumentationsketten zu erzeugen, hervorgetan. Dennoch bleiben komplexe Aufgaben, die ein dynamisches und iteratives Fokussieren auf feine Bildregionen erfordern, eine Herausforderung. Mit dem neuen Framework <strong>Ophiuchus</strong> wird dieses Problem angegangen.</p> <p>Ophiuchus erweitert

arXiv – cs.AI 17.12.2025 05:00

Forschung

RAG-IGBench: Neuer Benchmark für multimodale Fragebeantwortung

In realen Anwendungsszenarien können visuell angereicherte Antworten das Verständnis und die Erinnerung der Nutzer deutlich verbessern. Des…

arXiv – cs.AI 08.12.2025 05:00

Forschung

<h1>Neues Modell ChartPoint verbessert Chart-Verständnis von MLLMs um 5 %</h1> <p>In einer kürzlich veröffentlichten Studie auf arXiv wird ein innovativer Ansatz vorgestellt, der multimodale Large Language Models (MLLMs) dabei unterstützt, Diagramme präziser zu interpretieren. Der Kern des Problems liegt darin, dass aktuelle Modelle stark auf OCR-Ergebnisse angewiesen sind, was bei wenigen Textangaben zu numerischen Halluzinationen führt und die visuelle Wahrnehmung vernachlässigt.</p> <p>Um diese Lücke zu

arXiv – cs.AI 02.12.2025 05:00

Forschung

Agentenlernen mit wachsender multimodaler semantischer Erinnerung

Multimodale Large Language Models (MLLMs) zeigen beeindruckende Rechenfähigkeiten, doch sie lösen Aufgaben oft isoliert und wiederholen dab…

arXiv – cs.AI 27.11.2025 05:00

Forschung

Neuer Ansatz für gezieltes Vergessen in multimodalen Sprachmodellen

Multimodale Large Language Models (MLLMs) haben beeindruckende Fähigkeiten entwickelt, aber sie können unbeabsichtigt sensible Informatione…

arXiv – cs.AI 26.11.2025 05:00

Forschung

ChemVTS-Bench: Neuer Test für multimodale Chemie-Modelle

Die Chemie erfordert die gleichzeitige Verarbeitung von Bild-, Text- und Symbolinformationen. Bisherige Benchmarks greifen jedoch meist auf…

arXiv – cs.AI 25.11.2025 05:00

Forschung

Kognitive Inception: Agentisches Denken bekämpft visuelle Täuschungen durch Skepsis

Mit dem rasanten Aufstieg von KI-generierten Inhalten stehen multimodale Large Language Models (LLMs) vor einer neuen Herausforderung: Sie…

arXiv – cs.AI 25.11.2025 05:00

Forschung

OIDA‑QA: Neuer multimodaler Benchmark zur Analyse von Opioid‑Dokumenten

Die Opioid‑Krise hat die Schwächen von Regulierungssystemen, Gesundheitspraxis, Unternehmensführung und Politik aufgedeckt. Um diese Zusa…

arXiv – cs.AI 14.11.2025 05:00

Forschung

FractalBench: visuelle Muster in mathematische Programme übersetzen

FractalBench ist ein neues Benchmark, das die Fähigkeit multimodaler KI‑Modelle testet, aus Bildern komplexe mathematische Programme abzule…

arXiv – cs.AI 11.11.2025 05:00

Forschung

Benchmark zeigt: Multi-Modal-LLMs übertreffen Text-Parsing bei Rechnungen

Ein neues Benchmark-Studium hat acht multimodale Large Language Models – darunter GPT‑5, Gemini 2.5 und das Open‑Source‑Gemma 3 – auf drei…

arXiv – cs.AI 08.09.2025 05:00

Forschung

MLLMs entschlüsselt: Wie Schichten Bilder verstehen und Aufgaben lösen

Multimodale Large Language Models (MLLMs) haben in den letzten Monaten beeindruckende Ergebnisse bei einer Vielzahl von Vision‑Language‑Auf…

arXiv – cs.AI 29.08.2025 05:00

Forschung

Mit Halluzinationen in multimodalen LLMs wirksam umgehen – CHAIR-DPO-Ansatz

Multimodale Large Language Models (MLLMs) gelten als einheitliche Schnittstelle, die Aufgaben aus NLP und Computer Vision gleichermaßen bew…

arXiv – cs.AI 29.08.2025 05:00

Finde Modelle, Firmen und Themen

Neues Tool UMPIRE verbessert Unsicherheitsmessung bei multimodalen Sprachmodellen

TPRU: Datensatz für zeitliches und prozedurales Verständnis in Modellen

MeGU: Maschinelles Unlernen mit gezielter Feature‑Entkoppelung

Adaptive Modality-Steering für multimodale LLMs dank funktioneller Entropie

PRISM-XR: Datenschutzfreundliche XR‑Kollaboration mit multimodalen LLMs

MAD: Modality-Adaptive Decoding reduziert Halluzinationen in multimodalen LLMs

MemCtrl als aktive Gedächtniskontrolle: MemCtrl steigert Agentenleistung

Omni‑R1: Einheitliches generatives Modell für multimodale Logik

Sicherheits-Boost für Sprachmodelle: Parameter‑Space schützt vor Angriffen

RAG-IGBench: Neuer Benchmark für multimodale Fragebeantwortung

Agentenlernen mit wachsender multimodaler semantischer Erinnerung

Neuer Ansatz für gezieltes Vergessen in multimodalen Sprachmodellen

ChemVTS-Bench: Neuer Test für multimodale Chemie-Modelle

Kognitive Inception: Agentisches Denken bekämpft visuelle Täuschungen durch Skepsis

OIDA‑QA: Neuer multimodaler Benchmark zur Analyse von Opioid‑Dokumenten

FractalBench: visuelle Muster in mathematische Programme übersetzen

Benchmark zeigt: Multi-Modal-LLMs übertreffen Text-Parsing bei Rechnungen

MLLMs entschlüsselt: Wie Schichten Bilder verstehen und Aufgaben lösen

Mit Halluzinationen in multimodalen LLMs wirksam umgehen – CHAIR-DPO-Ansatz

🍪 Cookie-Einstellungen