Suche nach Vision-Language Models

Logit-basierte Unsicherheitsmessung verbessert Vertrauen in VLMs für Histopathologie

Vision‑Language‑Modelle (VLMs) haben in nahezu allen Bereichen – von Bildung über Transport bis hin zu Gesundheit – beeindruckende Erfolge…

arXiv – cs.LG 05.03.2026 05:00

Forschung

Vision‑Language‑Modelle revolutionieren multimodale Knowledge‑Graph‑Embeddings

Ein neues arXiv‑Paper (2603.02435v1) präsentiert die Vision‑Language Knowledge Graph Embeddings (VL‑KGE), ein innovatives Framework, das di…

arXiv – cs.AI 04.03.2026 05:00

Forschung

Vision‑Language‑Modelle: Neue Graphen prüfen kausales Denken

Neues Forschungspapier von Forschern auf arXiv (2602.20878v1) stellt einen wichtigen Schritt vorwärts in der Bewertung von Vision‑Language‑…

arXiv – cs.AI 25.02.2026 05:00

Produkt

Skalierung der Datenannotation mit Vision‑Language-Modellen für physische KI

Bedrock Robotics hat sich der Herausforderung gestellt, die Datenannotation für physische KI-Systeme zu skalieren. Durch die Teilnahme am A…

AWS – Machine Learning Blog 23.02.2026 23:20

Forschung

Vision‑Language‑Modelle: Feinabgestimmtes Wissen steigert Bildklassifikation

Vision‑Language‑Modelle (VLMs) haben in den letzten Jahren enorme Fortschritte bei Aufgaben wie visueller Frage‑Antwort, Dokumentenverständ…

arXiv – cs.AI 23.02.2026 05:00

Forschung

Vision‑Language‑Modelle zeigen starkes egocentrisches Bias bei Perspektivwechseln

Ein neues Benchmark‑Set namens FlipSet wurde entwickelt, um die Fähigkeit von Vision‑Language‑Modellen (VLMs) zum Level‑2‑visuellen Perspek…

arXiv – cs.AI 19.02.2026 05:00

Forschung

Roboter-Modelle lernen bei taktil-visionären Eingaben zuverlässig zu adaptieren

In der Robotik und multimodalen Wahrnehmung kommen taktil-visionale Sprachmodelle (TVL) immer häufiger zum Einsatz. Dabei treten während de…

arXiv – cs.AI 19.02.2026 05:00

Forschung

<h1>Neues Benchmark prüft Sprachrobustheit von Vision‑Language‑Modellen</h1> <p>Ein neues Verfahren namens Language‑Guided Invariance Probing (LGIP) wurde entwickelt, um die sprachliche Robustheit von Vision‑Language‑Modellen (VLMs) zu messen. LGIP bewertet, wie gut Modelle bei bedeutungserhaltenden Paraphrasen stabil bleiben und wie empfindlich sie auf semantische Änderungen reagieren, die Objektkategorien, Farben oder Mengen verändern.</p> <p>Die Studie nutzt 40.000 Bilder aus dem MS‑COCO‑Datensatz, jedes

arXiv – cs.AI 16.02.2026 05:00

Forschung

REVIS: Sparsere latente Steuerung senkt Objekthalluzination in LVLMs

Large Vision‑Language‑Models (LVLMs) haben beeindruckende Fähigkeiten, doch sie neigen häufig dazu, Objekte zu hallucinate. Ein wesentliche…

arXiv – cs.AI 13.02.2026 05:00

Forschung

CrossTALK: Neuer Angriff auf Vision‑Language‑Modelle überwindet Sicherheit

In einer kürzlich veröffentlichten Studie auf arXiv (2602.10148v1) haben Forscher einen bahnbrechenden Angriff auf Vision‑Language‑Modelle…

arXiv – cs.AI 12.02.2026 05:00

Forschung

SpotAgent: LVLMs meistern Geo‑Lokalisierung mit agentischem Denken

Large Vision‑Language Models (LVLMs) haben in der Lage, komplexe räumliche Fragen zu beantworten, stoßen jedoch häufig an Grenzen, wenn die…

arXiv – cs.AI 11.02.2026 05:00

Forschung

LQA: Leichtgewichtiges quantisiertes Framework für Vision‑Language‑Modelle Edge

Die Ausführung von Vision‑Language‑Modellen (VLMs) auf Edge‑Geräten ist durch begrenzte Rechenleistung und Speicher sowie durch Leistungsei…

arXiv – cs.AI 10.02.2026 05:00

Forschung

Vision‑Language‑Modelle lösen Tangram‑Puzzles dank selbstreflektierender Testzeit‑Strategie

Menschen meistern Tangram‑Puzzles mühelos, indem sie mentale Rotation, iterative Verfeinerung und visuelles Feedback einsetzen. In einer Re…

arXiv – cs.AI 06.02.2026 05:00

Forschung

Federated Alignment: Neue Methode für heterogene Vision‑Language‑Modelle

Vision‑Language‑Modelle (VLMs) versprechen enorme Fortschritte in sensiblen Bereichen wie Medizin und Finanzen. Doch die strengen Datenschu…

arXiv – cs.AI 03.02.2026 05:00

Forschung

VLM-Agenten entwickeln effiziente, geheime Kommunikationsprotokolle

In einer neuen Studie untersuchen Forscher, ob KI-Agenten, die auf großen Sprachmodellen basieren, eigenständige, auf Aufgaben zugeschnitte…

arXiv – cs.AI 29.01.2026 05:00

Forschung

Vision‑Language‑Modelle: Studie zeigt Diskriminierung von Menschen mit Behinderung

Eine bahnbrechende Untersuchung hat aufgezeigt, wie moderne Vision‑Language‑Modelle (VLMs) Menschen mit Behinderung in Bildbeschreibungen d…

arXiv – cs.AI 27.01.2026 05:00

Forschung

M3Kang: Neues Mehrsprachiges Datenset für mathematisches Multimodales Denken

Vision‑Language‑Modelle (VLMs) haben in den letzten Jahren beeindruckende Fortschritte bei der Beantwortung komplexer Fragen erzielt, doch…

arXiv – cs.AI 26.01.2026 05:00

Forschung

Vision‑Language‑Modelle Röntgenbilder: Hierarchische Bewertung senkt schwere Fehler

Vision‑Language‑Modelle (VLMs) erzielen beeindruckende Zero‑Shot-Leistungen bei der Klassifizierung von Thorax‑Röntgenaufnahmen. Standard‑F…

arXiv – cs.AI 22.01.2026 05:00

Forschung

AutoDriDM: Benchmark für Entscheidung von Vision‑Language‑Modellen autonom

Autonomes Fahren stellt die Technik vor enorme Herausforderungen: Zuverlässige Wahrnehmung und sichere Entscheidungen in komplexen Verkehrs…

arXiv – cs.AI 22.01.2026 05:00

Forschung

Vision‑Language‑Modelle erkennen Bauarbeiter: GPT‑4o führt bei Bildanalyse

Mit der zunehmenden Verbreitung von Robotern auf Baustellen wird die Fähigkeit, menschliches Verhalten zu erkennen und darauf zu reagieren…

arXiv – cs.AI 19.01.2026 05:00

Forschung

Vision‑Language‑Modelle simulieren virtuelle Patientenbefragung – Diagnosen verbessern

In der medizinischen KI-Forschung lag der Fokus bislang überwiegend auf Bildanalyse. Dadurch bleiben wichtige Patientenbeschwerden unberück…

arXiv – cs.AI 19.01.2026 05:00

Forschung

<h1>Vielversprechende VLMs: Rotation‑Robustheit & Bias‑Reduktion</h1> <p>Vision‑Language‑Modelle (VLMs) und generative Bildmodelle haben in den letzten Jahren beeindruckende Leistungen bei multimodalen Aufgaben erzielt. Trotz dieser Erfolge bleiben Fragen zur Robustheit und Fairness unter Eingabetransformationen, insbesondere Rotationen, weitgehend unbeantwortet.</p> <p>Die vorliegende Arbeit untersucht, wie Vorurteile in hochmodernen VLMs und generativen Modellen durch Bildrotationen und Verteilungssprüng

arXiv – cs.AI 15.01.2026 05:00

Forschung

V-Agent: Interaktives Videosuchsystem mit Vision‑Language-Modellen

V-Agent ist eine neuartige Multi‑Agent-Plattform, die fortschrittliche Videosuche mit interaktiven Gesprächen zwischen Nutzer und System ko…

arXiv – cs.AI 22.12.2025 05:00

Forschung

ChromouVQA: Neues Benchmark für Vision‑Language‑Modelle mit chromatischer Tarnung

Vision‑Language‑Modelle (VLMs) haben die multimodale Verarbeitung von Bild- und Textdaten revolutioniert, stoßen jedoch bei der Erkennung v…

arXiv – cs.AI 08.12.2025 05:00

Forschung

TRACE: Framework zur Analyse schrittweiser Logik in Vision‑Language‑Modellen

Die Fähigkeit großer Vision‑Language‑Modelle, mathematische und wissenschaftliche Probleme zuverlässig zu lösen, ist nach wie vor ein offen…

arXiv – cs.AI 08.12.2025 05:00

Forschung

RoboDriveBench: Benchmark für robuste Vision‑Language‑Modelle im autonomen Fahren

In einer Zeit, in der Vision‑Language‑Modelle (VLMs) zunehmend als zentrale Entscheidungsinstanz in autonomen Fahrsystemen eingesetzt werde…

arXiv – cs.AI 02.12.2025 05:00

Forschung

BioPro: Zielgerichtete Geschlechtergerechtigkeit für Vision‑Language‑Modelle

Vision‑Language‑Modelle (VLMs) übernehmen aus ihren Trainingsdaten stark ausgeprägte soziale Vorurteile, insbesondere in Bezug auf die Gesc…

arXiv – cs.AI 02.12.2025 05:00

Forschung

Neuronenlöschung in Vision‑Language‑Modellen führt zum Sprachkern‑Zusammenbruch

Eine neue Studie auf arXiv (2512.00918v1) zeigt, dass das Entfernen nur sehr kleiner Teile der neuronalen Netzwerke in großen Vision‑Langua…

arXiv – cs.AI 02.12.2025 05:00

Forschung

AgriCoT: Benchmark für logisches Denken in Vision‑Language‑Modellen

In der Landwirtschaft gewinnen Vision‑Language‑Modelle (VLMs) immer mehr an Bedeutung, weil sie Aufgaben wie Präzisionslandwirtschaft, Pfla…

arXiv – cs.AI 01.12.2025 05:00

Forschung

Vision‑Language‑Modelle extrahieren BPMN‑Diagramme direkt aus Bildern

Ein neues Verfahren nutzt Vision‑Language‑Modelle (VLMs), um strukturierte JSON‑Darstellungen von Business Process Model and Notation (BPMN…

arXiv – cs.AI 01.12.2025 05:00

Finde Modelle, Firmen und Themen

Logit-basierte Unsicherheitsmessung verbessert Vertrauen in VLMs für Histopathologie

Vision‑Language‑Modelle revolutionieren multimodale Knowledge‑Graph‑Embeddings

Vision‑Language‑Modelle: Neue Graphen prüfen kausales Denken

Skalierung der Datenannotation mit Vision‑Language-Modellen für physische KI

Vision‑Language‑Modelle: Feinabgestimmtes Wissen steigert Bildklassifikation

Vision‑Language‑Modelle zeigen starkes egocentrisches Bias bei Perspektivwechseln

Roboter-Modelle lernen bei taktil-visionären Eingaben zuverlässig zu adaptieren

REVIS: Sparsere latente Steuerung senkt Objekthalluzination in LVLMs

CrossTALK: Neuer Angriff auf Vision‑Language‑Modelle überwindet Sicherheit

SpotAgent: LVLMs meistern Geo‑Lokalisierung mit agentischem Denken

LQA: Leichtgewichtiges quantisiertes Framework für Vision‑Language‑Modelle Edge

Vision‑Language‑Modelle lösen Tangram‑Puzzles dank selbstreflektierender Testzeit‑Strategie

Federated Alignment: Neue Methode für heterogene Vision‑Language‑Modelle

VLM-Agenten entwickeln effiziente, geheime Kommunikationsprotokolle

Vision‑Language‑Modelle: Studie zeigt Diskriminierung von Menschen mit Behinderung

M3Kang: Neues Mehrsprachiges Datenset für mathematisches Multimodales Denken

Vision‑Language‑Modelle Röntgenbilder: Hierarchische Bewertung senkt schwere Fehler

AutoDriDM: Benchmark für Entscheidung von Vision‑Language‑Modellen autonom

Vision‑Language‑Modelle erkennen Bauarbeiter: GPT‑4o führt bei Bildanalyse

Vision‑Language‑Modelle simulieren virtuelle Patientenbefragung – Diagnosen verbessern

V-Agent: Interaktives Videosuchsystem mit Vision‑Language-Modellen

ChromouVQA: Neues Benchmark für Vision‑Language‑Modelle mit chromatischer Tarnung

TRACE: Framework zur Analyse schrittweiser Logik in Vision‑Language‑Modellen

RoboDriveBench: Benchmark für robuste Vision‑Language‑Modelle im autonomen Fahren

BioPro: Zielgerichtete Geschlechtergerechtigkeit für Vision‑Language‑Modelle

Neuronenlöschung in Vision‑Language‑Modellen führt zum Sprachkern‑Zusammenbruch

AgriCoT: Benchmark für logisches Denken in Vision‑Language‑Modellen

Vision‑Language‑Modelle extrahieren BPMN‑Diagramme direkt aus Bildern

🍪 Cookie-Einstellungen