Suche nach Vision‑Language‑Modell

Neues Verfahren: Multimodales In-Context-Lernen mit Differenzierter Privatsphäre

Vision‑Language‑Modelle werden zunehmend in sensiblen Bereichen wie medizinischer Bildgebung und privaten Fotos eingesetzt. Bisher beschrän…

arXiv – cs.AI 06.03.2026 05:00

Forschung

KI-Assistent revolutioniert Wissensmanagement und Schulung in deutschen Verkehrsbehörden

Ein neues KI-System, das auf Retrieval‑Augmented Generation (RAG) basiert, verspricht, die Art und Weise zu verändern, wie staatliche Verke…

arXiv – cs.AI 05.03.2026 05:00

Forschung

Autorisation on Demand: Dynamische Rechteverwaltung für Vision‑Language‑Modelle

Die rasante Verbreitung von Vision‑Language‑Modellen (VLMs) hat die Nachfrage nach effektiven Schutzmechanismen für geistiges Eigentum (IP)…

arXiv – cs.AI 06.03.2026 05:00

Forschung

Logit-basierte Unsicherheitsmessung verbessert Vertrauen in VLMs für Histopathologie

Vision‑Language‑Modelle (VLMs) haben in nahezu allen Bereichen – von Bildung über Transport bis hin zu Gesundheit – beeindruckende Erfolge…

arXiv – cs.LG 05.03.2026 05:00

Forschung

Vision‑Language‑Modelle revolutionieren multimodale Knowledge‑Graph‑Embeddings

Ein neues arXiv‑Paper (2603.02435v1) präsentiert die Vision‑Language Knowledge Graph Embeddings (VL‑KGE), ein innovatives Framework, das di…

arXiv – cs.AI 04.03.2026 05:00

Praxis

FireRedTeam präsentiert FireRed-OCR-2B: Halluzinationen in Tabellen und LaTeX

Die Digitalisierung von Dokumenten ist seit langem ein mehrstufiges Problem: Zunächst muss das Layout erkannt, anschließend der Text extrah…

MarkTechPost 02.03.2026 06:38

Forschung

PromptCD: Testzeit-Verhaltensverbesserung durch Polarisations-Prompt-Decoding

Ein neuer Ansatz namens PromptCD verspricht, KI-Modelle ohne zusätzliche Trainingsschritte an menschliche Werte anzupassen. Während bisheri…

arXiv – cs.AI 25.02.2026 05:00

Forschung

MIMIC: Mit innerer Sprache steuert KI menschliches Verhalten

Die Koordination von Menschen und künstlicher Intelligenz erfordert Agenten, die menschliche Verhaltensweisen nachahmen und gleichzeitig fl…

arXiv – cs.AI 25.02.2026 05:00

Forschung

Vision‑Language‑Modelle: Neue Graphen prüfen kausales Denken

Neues Forschungspapier von Forschern auf arXiv (2602.20878v1) stellt einen wichtigen Schritt vorwärts in der Bewertung von Vision‑Language‑…

arXiv – cs.AI 25.02.2026 05:00

Forschung

ActionEngine: Programmatische GUI-Agenten mit Zustandsmaschinen-Speicher

In der Welt der grafischen Benutzeroberflächen (GUI) greifen Agenten bislang auf sequentielle Aufrufe von Vision‑Language‑Modellen zurück…

arXiv – cs.AI 25.02.2026 05:00

Forschung

Neues Modell RB‑VLA verbessert Vision‑Language‑Action bei langen Aufgaben

Ein neu entwickeltes Modell namens RB‑VLA verspricht, die Grenzen aktueller Vision‑Language‑Action‑Systeme (VLA) zu überwinden. Durch die K…

arXiv – cs.AI 25.02.2026 05:00

Forschung

<p>Neue Benchmark NativeEmbodied zeigt Schwächen von VLM-basierten Agenten</p> <p>Vision‑Language‑Modelle (VLMs) haben in den letzten Jahren großes Interesse für menschenähnliche, eingebettete Intelligenz geweckt. Bisherige Tests für VLM‑gestützte Agenten setzen jedoch häufig auf hochrangige Befehle oder stark vereinfachte Aktionsräume, die weit von realen Steuerungsbedingungen abweichen. Diese Diskrepanz führt zu unvollständigen Bewertungen der tatsächlichen Fähigkeiten der Agenten.</p> <p>Um diese Lücken

arXiv – cs.AI 25.02.2026 05:00

Produkt

Skalierung der Datenannotation mit Vision‑Language-Modellen für physische KI

Bedrock Robotics hat sich der Herausforderung gestellt, die Datenannotation für physische KI-Systeme zu skalieren. Durch die Teilnahme am A…

AWS – Machine Learning Blog 23.02.2026 23:20

Forschung

Vision‑Language‑Modelle: Feinabgestimmtes Wissen steigert Bildklassifikation

Vision‑Language‑Modelle (VLMs) haben in den letzten Jahren enorme Fortschritte bei Aufgaben wie visueller Frage‑Antwort, Dokumentenverständ…

arXiv – cs.AI 23.02.2026 05:00

Forschung

Robuste medizinische Vision‑Language‑Modelle mit Multi‑Modal Reconstruction

In einer neuen Studie wird ein selbstüberwachtes Vortrainingsverfahren vorgestellt, das medizinische Vision‑Language‑Modelle gezielt gegen…

arXiv – cs.AI 23.02.2026 05:00

Forschung

VLMs im autonomen Fahren: Textbias in synthetischen MCQAs drastisch reduziert

In einer neuen Studie wurde gezeigt, dass synthetisch generierte Multiple‑Choice‑Fragen (MCQAs) für Vision‑Language‑Modelle (VLMs) im Berei…

arXiv – cs.LG 23.02.2026 05:00

Forschung

Feinabstimmung von Vision‑Language‑Modellen gefährdet Sicherheit – Studie warnt

Eine neue Untersuchung aus dem arXiv‑Repository zeigt, dass das Feintuning von Vision‑Language‑Modellen auf eng begrenzte, potenziell schäd…

arXiv – cs.AI 20.02.2026 05:00

Forschung

Vision‑Language‑Modelle zeigen starkes egocentrisches Bias bei Perspektivwechseln

Ein neues Benchmark‑Set namens FlipSet wurde entwickelt, um die Fähigkeit von Vision‑Language‑Modellen (VLMs) zum Level‑2‑visuellen Perspek…

arXiv – cs.AI 19.02.2026 05:00

Forschung

Generalisierung von multimodalen LLMs bei einfachen visuellen Planungsaufgaben

In den letzten Monaten hat die Integration von Begründungsmechanismen in große Sprachmodelle und Vision‑Language‑Modelle die Leistungsfähig…

arXiv – cs.LG 18.02.2026 05:00

Forschung

EAA: Automatisierung der Materialcharakterisierung mit vision‑Language‑Modellen

Das neue System Experiment Automation Agents (EAA) nutzt ein vision‑Language‑Modell, um komplexe Mikroskopie‑Workflows automatisch zu steue…

arXiv – cs.AI 18.02.2026 05:00

Forschung

Visuelle Daten verbessern Textmodelle: VLMs übertreffen LLMs bei Textaufgaben

In einer neuen Studie zeigen Vision‑Language‑Modelle (VLMs), dass sie bei rein textbasierten Aufgaben – besonders bei der Suche nach Inform…

arXiv – cs.LG 18.02.2026 05:00

Forschung

CARE Drive: Bewertungsframework für Vision‑Language‑Modelle im autonomen Fahren

In der heutigen Ära der künstlichen Intelligenz (KI) hat die Entwicklung von KI-gesteuerten Chatbots die Art und Weise, wie Unternehmen mit…

arXiv – cs.AI 18.02.2026 05:00

Forschung

Neuer Online-RL-Webagent erzielt 38 % Erfolg bei WebArena

Wissenschaftler haben einen völlig neuen Webagent entwickelt, der autonom im Internet navigiert und dabei die komplexen, sich ständig verän…

arXiv – cs.AI 17.02.2026 05:00

Forschung

Lang2Act: Selbstentwickelte Sprachwerkzeuge verbessern visuelle Wahrnehmung

Ein neues Verfahren namens Lang2Act verspricht, die visuelle Wahrnehmung von Vision‑Language‑Modellen (VLMs) deutlich zu steigern. Im Gegen…

arXiv – cs.AI 17.02.2026 05:00

Praxis

Alibaba Qwen-Team stellt Qwen3.5‑397B‑A17B mit 17 B aktiven Parametern vor

Alibaba Cloud hat die Open‑Source-Landschaft mit der neuesten Generation seiner großen Sprachmodelle (LLM) erweitert. Das Qwen-Team präsent…

MarkTechPost 16.02.2026 18:53

Forschung

Blueprint: Multimodales Suchsystem revolutioniert die Suche in Archiven

Ein neues Tool namens Blueprint hat die Art und Weise, wie Ingenieure auf jahrzehntelange technische Zeichnungen und Dokumente zugreifen, g…

arXiv – cs.LG 17.02.2026 05:00

Forschung

RL-Feinabstimmung von VLMs: Robustheit und Konsistenz der Gedankenketten im Fokus

Reinforcement‑Learning‑Feinabstimmung (RL‑FT) hat sich bei großen Sprachmodellen als entscheidendes Verfahren zur Verbesserung von Rechenau…

arXiv – cs.LG 16.02.2026 05:00

Forschung

RL verfeinert visuelles Denken: Fokus auf Transformer-Schichten

Reinforcement Learning (RL) hat sich als Standardverfahren etabliert, um die visuelle Argumentationsfähigkeit von Vision‑Language‑Modellen…

arXiv – cs.AI 16.02.2026 05:00

Forschung

X‑SYS: Neue Referenzarchitektur für interaktive Erklärungs‑Tools

Die Forschung im Bereich erklärbarer KI (XAI) hat zahlreiche technische Ansätze entwickelt, doch die Umsetzung von Erklärungen in funktions…

arXiv – cs.AI 16.02.2026 05:00

Forschung

<h1>Neues Benchmark prüft Sprachrobustheit von Vision‑Language‑Modellen</h1> <p>Ein neues Verfahren namens Language‑Guided Invariance Probing (LGIP) wurde entwickelt, um die sprachliche Robustheit von Vision‑Language‑Modellen (VLMs) zu messen. LGIP bewertet, wie gut Modelle bei bedeutungserhaltenden Paraphrasen stabil bleiben und wie empfindlich sie auf semantische Änderungen reagieren, die Objektkategorien, Farben oder Mengen verändern.</p> <p>Die Studie nutzt 40.000 Bilder aus dem MS‑COCO‑Datensatz, jedes

arXiv – cs.AI 16.02.2026 05:00

Finde Modelle, Firmen und Themen

Neues Verfahren: Multimodales In-Context-Lernen mit Differenzierter Privatsphäre

KI-Assistent revolutioniert Wissensmanagement und Schulung in deutschen Verkehrsbehörden

Autorisation on Demand: Dynamische Rechteverwaltung für Vision‑Language‑Modelle

Logit-basierte Unsicherheitsmessung verbessert Vertrauen in VLMs für Histopathologie

Vision‑Language‑Modelle revolutionieren multimodale Knowledge‑Graph‑Embeddings

FireRedTeam präsentiert FireRed-OCR-2B: Halluzinationen in Tabellen und LaTeX

PromptCD: Testzeit-Verhaltensverbesserung durch Polarisations-Prompt-Decoding

MIMIC: Mit innerer Sprache steuert KI menschliches Verhalten

Vision‑Language‑Modelle: Neue Graphen prüfen kausales Denken

ActionEngine: Programmatische GUI-Agenten mit Zustandsmaschinen-Speicher

Neues Modell RB‑VLA verbessert Vision‑Language‑Action bei langen Aufgaben

Skalierung der Datenannotation mit Vision‑Language-Modellen für physische KI

Vision‑Language‑Modelle: Feinabgestimmtes Wissen steigert Bildklassifikation

Robuste medizinische Vision‑Language‑Modelle mit Multi‑Modal Reconstruction

VLMs im autonomen Fahren: Textbias in synthetischen MCQAs drastisch reduziert

Feinabstimmung von Vision‑Language‑Modellen gefährdet Sicherheit – Studie warnt

Vision‑Language‑Modelle zeigen starkes egocentrisches Bias bei Perspektivwechseln

Generalisierung von multimodalen LLMs bei einfachen visuellen Planungsaufgaben

EAA: Automatisierung der Materialcharakterisierung mit vision‑Language‑Modellen

Visuelle Daten verbessern Textmodelle: VLMs übertreffen LLMs bei Textaufgaben

CARE Drive: Bewertungsframework für Vision‑Language‑Modelle im autonomen Fahren

Neuer Online-RL-Webagent erzielt 38 % Erfolg bei WebArena

Lang2Act: Selbstentwickelte Sprachwerkzeuge verbessern visuelle Wahrnehmung

Alibaba Qwen-Team stellt Qwen3.5‑397B‑A17B mit 17 B aktiven Parametern vor

Blueprint: Multimodales Suchsystem revolutioniert die Suche in Archiven

RL-Feinabstimmung von VLMs: Robustheit und Konsistenz der Gedankenketten im Fokus

RL verfeinert visuelles Denken: Fokus auf Transformer-Schichten

X‑SYS: Neue Referenzarchitektur für interaktive Erklärungs‑Tools

🍪 Cookie-Einstellungen

Neuer Online-RL-Webagent erzielt 38 % Erfolg bei WebArena

Alibaba Qwen-Team stellt Qwen3.5‑397B‑A17B mit 17 B aktiven Parametern vor