Suche nach Multimodale große Sprachmodelle

Multimodale Urteilsmodelle verbessern: neues Benchmark und MCTS‑Datengenerierung

In den letzten Jahren haben multimodale große Sprachmodelle (MLLMs) zunehmend die Rolle von „Richtern“ übernommen, um präzise und konsisten…

arXiv – cs.AI 03.03.2026 05:00

Forschung

FactGuard: KI-gestützte Video-Desinformation mit Reinforcement Learning

In einer bahnbrechenden Veröffentlichung auf arXiv präsentiert das Forschungsteam FactGuard, ein neues KI-Framework, das Video‑Desinformati…

arXiv – cs.AI 27.02.2026 05:00

Forschung

Kausales Decoding reduziert Halluzinationen bei multimodalen Sprachmodellen

Multimodale große Sprachmodelle (MLLMs) liefern beeindruckende Beschreibungen von Bild‑Text‑Aufgaben, doch sie neigen häufig dazu, Objekte…

arXiv – cs.LG 26.02.2026 05:00

Forschung

<h1>Neues Modell liefert semantisch korrekte Rezepte aus Bildern</h1> Multimodale große Sprachmodelle können inzwischen Rezepte aus Fotos generieren, doch die Ergebnisse enthalten häufig falsche Kochschritte oder Zutaten, obwohl die Wortgenauigkeit hoch ist. Ein neues, semantisch fundiertes Verfahren löst dieses Problem, indem es Aktionen und Zutaten als internes Kontextmaterial für die Anweisungsgenerierung nutzt. Der Ansatz besteht aus zwei Stufen: Zunächst wird ein Supervised Fine‑Tuning (SFT)

arXiv – cs.AI 19.02.2026 05:00

Forschung

MathSpatial enthüllt Schwächen von MLLMs beim räumlichen Denken

Multimodale große Sprachmodelle (MLLMs) haben bei Wahrnehmungsaufgaben beeindruckende Ergebnisse erzielt, doch ihre Fähigkeit, mathematisch…

arXiv – cs.AI 13.02.2026 05:00

Forschung

ST‑Raptor: Agentisches System für semistrukturierte Tabellen‑QA

Die Beantwortung von Fragen zu semistrukturierten Tabellen stellt eine komplexe Herausforderung dar, die sowohl die präzise Extraktion von…

arXiv – cs.AI 10.02.2026 05:00

Forschung

Trifuse: Mehr Genauigkeit bei GUI‑Übersetzung durch multimodale Fusion

Die neue Methode Trifuse verbessert die Zuordnung von Sprachbefehlen zu grafischen Benutzeroberflächen (GUI) erheblich, ohne dass dafür rie…

arXiv – cs.AI 09.02.2026 05:00

Forschung

Personagram: KI-gestützte Personas für kreatives Produktdesign Produktdesigner starten häufig mit handgefertigten Personas, doch diese bleiben oft abstrakt, kostenintensiv und schwer in konkrete Designentscheidungen umzusetzen. Personagram löst dieses Problem, indem es ein interaktives System nutzt, das multimodale große Sprachmodelle (MLLMs) einsetzt. Damit können Designer detaillierte, bevölkerungsstatistische Personas erkunden, daraus Produktmerkmale ableiten und diese gezielt für unterschiedli

arXiv – cs.AI 09.02.2026 05:00

Forschung

ChartComplete: Das umfassende, taxonomiebasierte Chart‑Dataset für KI‑Modelle

Mit den jüngsten Fortschritten im Deep Learning und in der Computer‑Vision entwickelt sich das Feld der Diagramm‑Interpretation rasant weit…

arXiv – cs.AI 16.01.2026 05:00

Forschung

AMUSE: Benchmark für Agenten-Orientierte Audio-Video-Verständnis

Neuste multimodale Sprachmodelle wie GPT‑4o und Qwen3‑Omni zeigen beeindruckende Wahrnehmungsfähigkeiten, doch sie kämpfen in Szenarien mit…

arXiv – cs.AI 19.12.2025 05:00

Forschung

CRM: Region-Masking zeigt, wie multimodale LLMs visuelle Infos nutzen

In einer neuen Studie wird ein innovatives Diagnoseverfahren namens Contrastive Region Masking (CRM) vorgestellt, das aufzeigt, wie multimo…

arXiv – cs.AI 11.12.2025 05:00

Forschung

MIND: Neues Framework für multimodale KI – Mehr rationale, robustere Entscheidungen

In den letzten Jahren haben multimodale große Sprachmodelle (MLLMs) enorme Fortschritte bei komplexen Denkaufgaben erzielt. Trotz ihrer Lei…

arXiv – cs.AI 08.12.2025 05:00

Forschung

BiTAgent: Aufgabenorientierter Rahmen für bidirektionale LLM-Weltmodell-Kopplung

BiTAgent ist ein neu entwickeltes Framework, das multimodale große Sprachmodelle (MLLMs) und Weltmodelle (WMs) miteinander verbindet, um ge…

arXiv – cs.AI 05.12.2025 05:00

Forschung

Nachverfolgung Trainingsdaten bei Bildgenerierung mit ontologieausgerichteten KGs

Mit der zunehmenden Leistungsfähigkeit generativer Modelle wächst die Forderung nach Transparenz, Verantwortung und Schutz geistigen Eigent…

arXiv – cs.AI 03.12.2025 05:00

Forschung

TIM-PRM: Tool-gestützte Verifikation multimodaler Modelle

Multimodale große Sprachmodelle (MLLMs) haben in der mathematischen Logik beeindruckende Fortschritte erzielt, bleiben jedoch anfällig für…

arXiv – cs.AI 01.12.2025 05:00

Forschung

FlashCache: Frequenzdomänen-basierte KV-Cache-Kompression für multimodale LLMs

Multimodale große Sprachmodelle stoßen bei der Inferenz auf erhebliche Engpässe, weil ihr KV‑Cache proportional zur Länge der visuellen Ein…

arXiv – cs.AI 24.11.2025 05:00

Forschung

Selbstentwickelnde Reflexion verbessert multimodale Mathematik-Modelle

Ein neues Verfahren namens MathSE verspricht, multimodale große Sprachmodelle (MLLMs) bei komplexen mathematischen Aufgaben deutlich zu stä…

arXiv – cs.AI 11.11.2025 05:00

Forschung

MLLMs nutzen Bilder statt Text für 87,5 % bessere Kaufvorhersage Ein neues arXiv‑Papier beleuchtet, wie multimodale große Sprachmodelle (MLLMs) Nutzerverhalten interpretieren und welche Darstellungsform am effektivsten ist. Die Autoren stellen die Plattform BehaviorLens vor, ein Benchmarking‑Framework, das Transaktionsdaten in drei unterschiedlichen Modalitäten präsentiert: als Textabschnitt, als Streudiagramm und als Flussdiagramm. Durch die Analyse eines realen Kaufsequen

arXiv – cs.AI 07.11.2025 05:00

Forschung

ToolScope: Agentisches Framework für multimodale Tool‑Nutzung in Visionaufgaben

In der jüngsten Veröffentlichung auf arXiv (2510.27363v1) wird ToolScope vorgestellt – ein neues, agentisches Framework, das große Sprachmo…

arXiv – cs.AI 03.11.2025 05:00

Forschung

WebRSSBench: MLLM‑Tests für Web‑Reasoning, Robustheit und Sicherheit

Ein neues Benchmark‑Set namens WebRSSBench wurde vorgestellt, um multimodale große Sprachmodelle (MLLMs) in ihrer Fähigkeit zu prüfen, komp…

arXiv – cs.AI 29.09.2025 05:00

Forschung

D-Artemis: Neues deliberatives KI-Framework revolutioniert mobile GUI-Agenten

Die neueste Veröffentlichung auf arXiv, D-Artemis, präsentiert ein innovatives deliberatives Rahmenwerk, das mobile GUI-Agenten auf ein neu…

arXiv – cs.AI 29.09.2025 05:00

Forschung

SparkUI-Parser: Verbesserte GUI-Erkennung mit robuster Lokalisierung und Parsing

Multimodale große Sprachmodelle (MLLMs) haben die Erkennung von grafischen Benutzeroberflächen (GUI) stark vorangetrieben, doch bisherige A…

arXiv – cs.AI 08.09.2025 05:00

Forschung

EgoIllusion: Benchmark deckt Halluzinationen von Modellen in Ego‑Videos auf

Multimodale große Sprachmodelle (MLLMs) haben in den letzten Jahren beeindruckende Fortschritte bei komplexen multimodalen Aufgaben erzielt…

arXiv – cs.AI 19.08.2025 05:00

Finde Modelle, Firmen und Themen

Multimodale Urteilsmodelle verbessern: neues Benchmark und MCTS‑Datengenerierung

FactGuard: KI-gestützte Video-Desinformation mit Reinforcement Learning

Kausales Decoding reduziert Halluzinationen bei multimodalen Sprachmodellen

MathSpatial enthüllt Schwächen von MLLMs beim räumlichen Denken

ST‑Raptor: Agentisches System für semistrukturierte Tabellen‑QA

Trifuse: Mehr Genauigkeit bei GUI‑Übersetzung durch multimodale Fusion

ChartComplete: Das umfassende, taxonomiebasierte Chart‑Dataset für KI‑Modelle

AMUSE: Benchmark für Agenten-Orientierte Audio-Video-Verständnis

CRM: Region-Masking zeigt, wie multimodale LLMs visuelle Infos nutzen

MIND: Neues Framework für multimodale KI – Mehr rationale, robustere Entscheidungen

BiTAgent: Aufgabenorientierter Rahmen für bidirektionale LLM-Weltmodell-Kopplung

Nachverfolgung Trainingsdaten bei Bildgenerierung mit ontologieausgerichteten KGs

TIM-PRM: Tool-gestützte Verifikation multimodaler Modelle

FlashCache: Frequenzdomänen-basierte KV-Cache-Kompression für multimodale LLMs

Selbstentwickelnde Reflexion verbessert multimodale Mathematik-Modelle

ToolScope: Agentisches Framework für multimodale Tool‑Nutzung in Visionaufgaben

WebRSSBench: MLLM‑Tests für Web‑Reasoning, Robustheit und Sicherheit

D-Artemis: Neues deliberatives KI-Framework revolutioniert mobile GUI-Agenten

SparkUI-Parser: Verbesserte GUI-Erkennung mit robuster Lokalisierung und Parsing

EgoIllusion: Benchmark deckt Halluzinationen von Modellen in Ego‑Videos auf

🍪 Cookie-Einstellungen