Suche nach Vision-Language

Logit-basierte Unsicherheitsmessung verbessert Vertrauen in VLMs für Histopathologie

Vision‑Language‑Modelle (VLMs) haben in nahezu allen Bereichen – von Bildung über Transport bis hin zu Gesundheit – beeindruckende Erfolge…

arXiv – cs.LG 05.03.2026 05:00

Forschung

Vision‑Language‑Modelle revolutionieren multimodale Knowledge‑Graph‑Embeddings

Ein neues arXiv‑Paper (2603.02435v1) präsentiert die Vision‑Language Knowledge Graph Embeddings (VL‑KGE), ein innovatives Framework, das di…

arXiv – cs.AI 04.03.2026 05:00

Forschung

NoRD: Vision-Language-Action-Modell fährt ohne umfangreiche Daten und Reasoning

Ein neues Forschungsergebnis aus dem Bereich autonomes Fahren präsentiert NoRD, ein Vision‑Language‑Action‑Modell, das ohne umfangreiche Da…

arXiv – cs.AI 25.02.2026 05:00

Forschung

Vision‑Language‑Modelle: Neue Graphen prüfen kausales Denken

Neues Forschungspapier von Forschern auf arXiv (2602.20878v1) stellt einen wichtigen Schritt vorwärts in der Bewertung von Vision‑Language‑…

arXiv – cs.AI 25.02.2026 05:00

Forschung

QuantVLA: Post-Training Quantisierung für Vision‑Language‑Action‑Modelle

QuantVLA ist ein neu entwickeltes, trainingsfreies Post‑Training‑Quantisierungsframework, das speziell für Vision‑Language‑Action‑Modelle (…

arXiv – cs.LG 25.02.2026 05:00

Produkt

Skalierung der Datenannotation mit Vision‑Language-Modellen für physische KI

Bedrock Robotics hat sich der Herausforderung gestellt, die Datenannotation für physische KI-Systeme zu skalieren. Durch die Teilnahme am A…

AWS – Machine Learning Blog 23.02.2026 23:20

Forschung

Vision‑Language‑Modelle: Feinabgestimmtes Wissen steigert Bildklassifikation

Vision‑Language‑Modelle (VLMs) haben in den letzten Jahren enorme Fortschritte bei Aufgaben wie visueller Frage‑Antwort, Dokumentenverständ…

arXiv – cs.AI 23.02.2026 05:00

Forschung

Feinabstimmung von Vision‑Language‑Modellen gefährdet Sicherheit – Studie warnt

Eine neue Untersuchung aus dem arXiv‑Repository zeigt, dass das Feintuning von Vision‑Language‑Modellen auf eng begrenzte, potenziell schäd…

arXiv – cs.AI 20.02.2026 05:00

Forschung

Vision‑Language‑Modelle zeigen starkes egocentrisches Bias bei Perspektivwechseln

Ein neues Benchmark‑Set namens FlipSet wurde entwickelt, um die Fähigkeit von Vision‑Language‑Modellen (VLMs) zum Level‑2‑visuellen Perspek…

arXiv – cs.AI 19.02.2026 05:00

Forschung

Roboter-Modelle lernen bei taktil-visionären Eingaben zuverlässig zu adaptieren

In der Robotik und multimodalen Wahrnehmung kommen taktil-visionale Sprachmodelle (TVL) immer häufiger zum Einsatz. Dabei treten während de…

arXiv – cs.AI 19.02.2026 05:00

Forschung

VILA: Vision‑Language‑Kalibrierung stärkt analytisches inkrementelles Lernen

1. **Einführung** Die Entwicklung von KI-gestützten Sprachmodellen hat die Art und Weise, wie wir mit Computern interagieren, revolutionier…

arXiv – cs.LG 17.02.2026 05:00

Forschung

<h1>Neues Benchmark prüft Sprachrobustheit von Vision‑Language‑Modellen</h1> <p>Ein neues Verfahren namens Language‑Guided Invariance Probing (LGIP) wurde entwickelt, um die sprachliche Robustheit von Vision‑Language‑Modellen (VLMs) zu messen. LGIP bewertet, wie gut Modelle bei bedeutungserhaltenden Paraphrasen stabil bleiben und wie empfindlich sie auf semantische Änderungen reagieren, die Objektkategorien, Farben oder Mengen verändern.</p> <p>Die Studie nutzt 40.000 Bilder aus dem MS‑COCO‑Datensatz, jedes

arXiv – cs.AI 16.02.2026 05:00

Forschung

REVIS: Sparsere latente Steuerung senkt Objekthalluzination in LVLMs

Large Vision‑Language‑Models (LVLMs) haben beeindruckende Fähigkeiten, doch sie neigen häufig dazu, Objekte zu hallucinate. Ein wesentliche…

arXiv – cs.AI 13.02.2026 05:00

Forschung

CrossTALK: Neuer Angriff auf Vision‑Language‑Modelle überwindet Sicherheit

In einer kürzlich veröffentlichten Studie auf arXiv (2602.10148v1) haben Forscher einen bahnbrechenden Angriff auf Vision‑Language‑Modelle…

arXiv – cs.AI 12.02.2026 05:00

Forschung

SpotAgent: LVLMs meistern Geo‑Lokalisierung mit agentischem Denken

Large Vision‑Language Models (LVLMs) haben in der Lage, komplexe räumliche Fragen zu beantworten, stoßen jedoch häufig an Grenzen, wenn die…

arXiv – cs.AI 11.02.2026 05:00

Forschung

VGAS: Mehr Erfolg bei wenigen Demonstrationen in Vision‑Language‑Action-Modellen

Ein neues Forschungsprojekt namens VGAS (Value‑Guided Action‑Chunk Selection) verspricht, die Zuverlässigkeit von Vision‑Language‑Action‑Mo…

arXiv – cs.AI 10.02.2026 05:00

Forschung

LQA: Leichtgewichtiges quantisiertes Framework für Vision‑Language‑Modelle Edge

Die Ausführung von Vision‑Language‑Modellen (VLMs) auf Edge‑Geräten ist durch begrenzte Rechenleistung und Speicher sowie durch Leistungsei…

arXiv – cs.AI 10.02.2026 05:00

Forschung

Vision‑Language‑Modelle lösen Tangram‑Puzzles dank selbstreflektierender Testzeit‑Strategie

Menschen meistern Tangram‑Puzzles mühelos, indem sie mentale Rotation, iterative Verfeinerung und visuelles Feedback einsetzen. In einer Re…

arXiv – cs.AI 06.02.2026 05:00

Forschung

Federated Alignment: Neue Methode für heterogene Vision‑Language‑Modelle

Vision‑Language‑Modelle (VLMs) versprechen enorme Fortschritte in sensiblen Bereichen wie Medizin und Finanzen. Doch die strengen Datenschu…

arXiv – cs.AI 03.02.2026 05:00

Forschung

<p>EcoVLA: Umwelt‑Pruning beschleunigt Vision‑Language‑Action‑Modelle</p> <p>Vision‑Language‑Action‑Modelle (VLA) versprechen eine neue Ära der eingebetteten Intelligenz, doch ihre enormen Parameterzahlen führen zu hohen Latenzen, die Echtzeitmanipulationen erschweren. Traditionelle, statische Pruning‑Methoden können die sich ständig verändernden Umgebungsbedingungen nicht berücksichtigen, während dynamische, periodische Prunings zu grob und rechenintensiv sind.</p> <p>Um dieses Problem zu lösen, präsentier

arXiv – cs.AI 03.02.2026 05:00

Forschung

VLM-Agenten entwickeln effiziente, geheime Kommunikationsprotokolle

In einer neuen Studie untersuchen Forscher, ob KI-Agenten, die auf großen Sprachmodellen basieren, eigenständige, auf Aufgaben zugeschnitte…

arXiv – cs.AI 29.01.2026 05:00

Forschung

Vision‑Language‑Modelle: Studie zeigt Diskriminierung von Menschen mit Behinderung

Eine bahnbrechende Untersuchung hat aufgezeigt, wie moderne Vision‑Language‑Modelle (VLMs) Menschen mit Behinderung in Bildbeschreibungen d…

arXiv – cs.AI 27.01.2026 05:00

Forschung

M3Kang: Neues Mehrsprachiges Datenset für mathematisches Multimodales Denken

Vision‑Language‑Modelle (VLMs) haben in den letzten Jahren beeindruckende Fortschritte bei der Beantwortung komplexer Fragen erzielt, doch…

arXiv – cs.AI 26.01.2026 05:00

Forschung

Vision‑Language‑Modelle Röntgenbilder: Hierarchische Bewertung senkt schwere Fehler

Vision‑Language‑Modelle (VLMs) erzielen beeindruckende Zero‑Shot-Leistungen bei der Klassifizierung von Thorax‑Röntgenaufnahmen. Standard‑F…

arXiv – cs.AI 22.01.2026 05:00

Forschung

AutoDriDM: Benchmark für Entscheidung von Vision‑Language‑Modellen autonom

Autonomes Fahren stellt die Technik vor enorme Herausforderungen: Zuverlässige Wahrnehmung und sichere Entscheidungen in komplexen Verkehrs…

arXiv – cs.AI 22.01.2026 05:00

Forschung

Vision‑Language‑Modelle erkennen Bauarbeiter: GPT‑4o führt bei Bildanalyse

Mit der zunehmenden Verbreitung von Robotern auf Baustellen wird die Fähigkeit, menschliches Verhalten zu erkennen und darauf zu reagieren…

arXiv – cs.AI 19.01.2026 05:00

Forschung

DCVLR-Wettbewerb: Schwierigkeit statt Größe entscheidet multimodales Lernen

Beim NeurIPS 2025 Data Curation for Vision-Language Reasoning (DCVLR) Challenge hat ein Team mit einer kompakt kuratierten Datensammlung, d…

arXiv – cs.AI 19.01.2026 05:00

Forschung

Vision‑Language‑Modelle simulieren virtuelle Patientenbefragung – Diagnosen verbessern

In der medizinischen KI-Forschung lag der Fokus bislang überwiegend auf Bildanalyse. Dadurch bleiben wichtige Patientenbeschwerden unberück…

arXiv – cs.AI 19.01.2026 05:00

Forschung

<h1>Vielversprechende VLMs: Rotation‑Robustheit & Bias‑Reduktion</h1> <p>Vision‑Language‑Modelle (VLMs) und generative Bildmodelle haben in den letzten Jahren beeindruckende Leistungen bei multimodalen Aufgaben erzielt. Trotz dieser Erfolge bleiben Fragen zur Robustheit und Fairness unter Eingabetransformationen, insbesondere Rotationen, weitgehend unbeantwortet.</p> <p>Die vorliegende Arbeit untersucht, wie Vorurteile in hochmodernen VLMs und generativen Modellen durch Bildrotationen und Verteilungssprüng

arXiv – cs.AI 15.01.2026 05:00

Forschung

V-Agent: Interaktives Videosuchsystem mit Vision‑Language-Modellen

V-Agent ist eine neuartige Multi‑Agent-Plattform, die fortschrittliche Videosuche mit interaktiven Gesprächen zwischen Nutzer und System ko…

arXiv – cs.AI 22.12.2025 05:00

Finde Modelle, Firmen und Themen

Logit-basierte Unsicherheitsmessung verbessert Vertrauen in VLMs für Histopathologie

Vision‑Language‑Modelle revolutionieren multimodale Knowledge‑Graph‑Embeddings

NoRD: Vision-Language-Action-Modell fährt ohne umfangreiche Daten und Reasoning

Vision‑Language‑Modelle: Neue Graphen prüfen kausales Denken

QuantVLA: Post-Training Quantisierung für Vision‑Language‑Action‑Modelle

Skalierung der Datenannotation mit Vision‑Language-Modellen für physische KI

Vision‑Language‑Modelle: Feinabgestimmtes Wissen steigert Bildklassifikation

Feinabstimmung von Vision‑Language‑Modellen gefährdet Sicherheit – Studie warnt

Vision‑Language‑Modelle zeigen starkes egocentrisches Bias bei Perspektivwechseln

Roboter-Modelle lernen bei taktil-visionären Eingaben zuverlässig zu adaptieren

VILA: Vision‑Language‑Kalibrierung stärkt analytisches inkrementelles Lernen

REVIS: Sparsere latente Steuerung senkt Objekthalluzination in LVLMs

CrossTALK: Neuer Angriff auf Vision‑Language‑Modelle überwindet Sicherheit

SpotAgent: LVLMs meistern Geo‑Lokalisierung mit agentischem Denken

VGAS: Mehr Erfolg bei wenigen Demonstrationen in Vision‑Language‑Action-Modellen

LQA: Leichtgewichtiges quantisiertes Framework für Vision‑Language‑Modelle Edge

Vision‑Language‑Modelle lösen Tangram‑Puzzles dank selbstreflektierender Testzeit‑Strategie

Federated Alignment: Neue Methode für heterogene Vision‑Language‑Modelle

VLM-Agenten entwickeln effiziente, geheime Kommunikationsprotokolle

Vision‑Language‑Modelle: Studie zeigt Diskriminierung von Menschen mit Behinderung

M3Kang: Neues Mehrsprachiges Datenset für mathematisches Multimodales Denken

Vision‑Language‑Modelle Röntgenbilder: Hierarchische Bewertung senkt schwere Fehler

AutoDriDM: Benchmark für Entscheidung von Vision‑Language‑Modellen autonom

Vision‑Language‑Modelle erkennen Bauarbeiter: GPT‑4o führt bei Bildanalyse

DCVLR-Wettbewerb: Schwierigkeit statt Größe entscheidet multimodales Lernen

Vision‑Language‑Modelle simulieren virtuelle Patientenbefragung – Diagnosen verbessern

V-Agent: Interaktives Videosuchsystem mit Vision‑Language-Modellen

🍪 Cookie-Einstellungen