Suche nach VLMs | meineki.news

Autorisation on Demand: Dynamische Rechteverwaltung für Vision‑Language‑Modelle

Die rasante Verbreitung von Vision‑Language‑Modellen (VLMs) hat die Nachfrage nach effektiven Schutzmechanismen für geistiges Eigentum (IP)…

arXiv – cs.AI 06.03.2026 05:00

Forschung

Logit-basierte Unsicherheitsmessung verbessert Vertrauen in VLMs für Histopathologie

Vision‑Language‑Modelle (VLMs) haben in nahezu allen Bereichen – von Bildung über Transport bis hin zu Gesundheit – beeindruckende Erfolge…

arXiv – cs.LG 05.03.2026 05:00

Forschung

Vision‑Language‑Modelle revolutionieren multimodale Knowledge‑Graph‑Embeddings

Ein neues arXiv‑Paper (2603.02435v1) präsentiert die Vision‑Language Knowledge Graph Embeddings (VL‑KGE), ein innovatives Framework, das di…

arXiv – cs.AI 04.03.2026 05:00

Forschung

DesignSense: 10.000+ Layout‑Paare für bessere Designpräferenzen

Grafische Layouts sind ein zentrales Medium der visuellen Kommunikation, doch aktuelle Generierungsmodelle hinken oft hinter den feinen Nua…

arXiv – cs.AI 02.03.2026 05:00

Praxis

FireRedTeam präsentiert FireRed-OCR-2B: Halluzinationen in Tabellen und LaTeX

Die Digitalisierung von Dokumenten ist seit langem ein mehrstufiges Problem: Zunächst muss das Layout erkannt, anschließend der Text extrah…

MarkTechPost 02.03.2026 06:38

Forschung

SPM-Bench: Neuer LLM-Benchmark für Scanning Probe Microscopy

Mit dem neuen SPM‑Bench wird die Leistungsfähigkeit von Large Language Models (LLMs) im Bereich der Scanning Probe Microscopy (SPM) auf ein…

arXiv – cs.AI 27.02.2026 05:00

Forschung

PromptCD: Testzeit-Verhaltensverbesserung durch Polarisations-Prompt-Decoding

Ein neuer Ansatz namens PromptCD verspricht, KI-Modelle ohne zusätzliche Trainingsschritte an menschliche Werte anzupassen. Während bisheri…

arXiv – cs.AI 25.02.2026 05:00

Forschung

Vision‑Language‑Modelle: Neue Graphen prüfen kausales Denken

Neues Forschungspapier von Forschern auf arXiv (2602.20878v1) stellt einen wichtigen Schritt vorwärts in der Bewertung von Vision‑Language‑…

arXiv – cs.AI 25.02.2026 05:00

Forschung

Neues Modell RB‑VLA verbessert Vision‑Language‑Action bei langen Aufgaben

Ein neu entwickeltes Modell namens RB‑VLA verspricht, die Grenzen aktueller Vision‑Language‑Action‑Systeme (VLA) zu überwinden. Durch die K…

arXiv – cs.AI 25.02.2026 05:00

Forschung

<p>Neue Benchmark NativeEmbodied zeigt Schwächen von VLM-basierten Agenten</p> <p>Vision‑Language‑Modelle (VLMs) haben in den letzten Jahren großes Interesse für menschenähnliche, eingebettete Intelligenz geweckt. Bisherige Tests für VLM‑gestützte Agenten setzen jedoch häufig auf hochrangige Befehle oder stark vereinfachte Aktionsräume, die weit von realen Steuerungsbedingungen abweichen. Diese Diskrepanz führt zu unvollständigen Bewertungen der tatsächlichen Fähigkeiten der Agenten.</p> <p>Um diese Lücken

arXiv – cs.AI 25.02.2026 05:00

Forschung

LAMMI-Pathology: Agenten-Framework nutzt molekulare Daten für Pathologieanalyse

Eine neue Veröffentlichung auf arXiv präsentiert LAMMI-Pathology, ein Agenten-Framework, das Pathologieanalysen mit molekularen Daten auf e…

arXiv – cs.AI 24.02.2026 05:00

Forschung

Vision‑Language‑Modelle: Feinabgestimmtes Wissen steigert Bildklassifikation

Vision‑Language‑Modelle (VLMs) haben in den letzten Jahren enorme Fortschritte bei Aufgaben wie visueller Frage‑Antwort, Dokumentenverständ…

arXiv – cs.AI 23.02.2026 05:00

Forschung

VLMs im autonomen Fahren: Textbias in synthetischen MCQAs drastisch reduziert

In einer neuen Studie wurde gezeigt, dass synthetisch generierte Multiple‑Choice‑Fragen (MCQAs) für Vision‑Language‑Modelle (VLMs) im Berei…

arXiv – cs.LG 23.02.2026 05:00

Forschung

Vision‑Language‑Modelle zeigen starkes egocentrisches Bias bei Perspektivwechseln

Ein neues Benchmark‑Set namens FlipSet wurde entwickelt, um die Fähigkeit von Vision‑Language‑Modellen (VLMs) zum Level‑2‑visuellen Perspek…

arXiv – cs.AI 19.02.2026 05:00

Forschung

Visuelle Daten verbessern Textmodelle: VLMs übertreffen LLMs bei Textaufgaben

In einer neuen Studie zeigen Vision‑Language‑Modelle (VLMs), dass sie bei rein textbasierten Aufgaben – besonders bei der Suche nach Inform…

arXiv – cs.LG 18.02.2026 05:00

Forschung

Lang2Act: Selbstentwickelte Sprachwerkzeuge verbessern visuelle Wahrnehmung

Ein neues Verfahren namens Lang2Act verspricht, die visuelle Wahrnehmung von Vision‑Language‑Modellen (VLMs) deutlich zu steigern. Im Gegen…

arXiv – cs.AI 17.02.2026 05:00

Forschung

RL-Feinabstimmung von VLMs: Robustheit und Konsistenz der Gedankenketten im Fokus

Reinforcement‑Learning‑Feinabstimmung (RL‑FT) hat sich bei großen Sprachmodellen als entscheidendes Verfahren zur Verbesserung von Rechenau…

arXiv – cs.LG 16.02.2026 05:00

Forschung

<h1>Neues Benchmark prüft Sprachrobustheit von Vision‑Language‑Modellen</h1> <p>Ein neues Verfahren namens Language‑Guided Invariance Probing (LGIP) wurde entwickelt, um die sprachliche Robustheit von Vision‑Language‑Modellen (VLMs) zu messen. LGIP bewertet, wie gut Modelle bei bedeutungserhaltenden Paraphrasen stabil bleiben und wie empfindlich sie auf semantische Änderungen reagieren, die Objektkategorien, Farben oder Mengen verändern.</p> <p>Die Studie nutzt 40.000 Bilder aus dem MS‑COCO‑Datensatz, jedes

arXiv – cs.AI 16.02.2026 05:00

Forschung

Found‑RL: RL mit Foundation‑Modellen für autonome Fahrzeugsimulation

Reinforcement Learning (RL) hat sich als führendes Verfahren für end‑to‑end autonome Fahrsysteme etabliert, steht jedoch vor zwei großen Hi…

arXiv – cs.AI 12.02.2026 05:00

Forschung

REVIS: Sparsere latente Steuerung senkt Objekthalluzination in LVLMs

Large Vision‑Language‑Models (LVLMs) haben beeindruckende Fähigkeiten, doch sie neigen häufig dazu, Objekte zu hallucinate. Ein wesentliche…

arXiv – cs.AI 13.02.2026 05:00

Forschung

CrossTALK: Neuer Angriff auf Vision‑Language‑Modelle überwindet Sicherheit

In einer kürzlich veröffentlichten Studie auf arXiv (2602.10148v1) haben Forscher einen bahnbrechenden Angriff auf Vision‑Language‑Modelle…

arXiv – cs.AI 12.02.2026 05:00

Forschung

SpotAgent: LVLMs meistern Geo‑Lokalisierung mit agentischem Denken

Large Vision‑Language Models (LVLMs) haben in der Lage, komplexe räumliche Fragen zu beantworten, stoßen jedoch häufig an Grenzen, wenn die…

arXiv – cs.AI 11.02.2026 05:00

Forschung

NarraScore: Musik für Videos dank hierarchischer Affektsteuerung

Die automatische Erstellung von Soundtracks für lange Videos ist nach wie vor ein komplexes Problem. Die Hauptschwierigkeiten liegen in der…

arXiv – cs.AI 11.02.2026 05:00

Forschung

Diffusion- und autoregressive VLMs im Multimodal-Embedding-Raum verglichen

In der neuesten Studie von arXiv:2602.06056v1 wird untersucht, ob Multimodal Diffusion Language Models (dLLMs) als effektive Embedding‑Mode…

arXiv – cs.AI 09.02.2026 05:00

Forschung

LQA: Leichtgewichtiges quantisiertes Framework für Vision‑Language‑Modelle Edge

Die Ausführung von Vision‑Language‑Modellen (VLMs) auf Edge‑Geräten ist durch begrenzte Rechenleistung und Speicher sowie durch Leistungsei…

arXiv – cs.AI 10.02.2026 05:00

Forschung

Verborgene Instabilität in Vision‑Language‑Modellen: Neue Analyse <p>In einer aktuellen Studie von Forschern aus dem Bereich der Vision‑Language‑Modelle (VLMs) wurde eine bislang unentdeckte Instabilität aufgedeckt. Die Autoren stellen ein neues, repräsentations- und frequenzsensitives Evaluationsframework vor, das die inneren Abläufe von VLMs genauer unter die Lupe nimmt als bisherige, reine Output‑Metriken.</p> <p>Das Framework misst drei zentrale Aspekte: den Drift der internen Embeddings, die spektr

arXiv – cs.AI 09.02.2026 05:00

Forschung

Vision‑Language‑Modelle lösen Tangram‑Puzzles dank selbstreflektierender Testzeit‑Strategie

Menschen meistern Tangram‑Puzzles mühelos, indem sie mentale Rotation, iterative Verfeinerung und visuelles Feedback einsetzen. In einer Re…

arXiv – cs.AI 06.02.2026 05:00

Forschung

Modal‑Mixed Chain‑of‑Thought: Neue multimodale Denkweise mit latenten Embeddings

In einer neuen Studie wird die Chain‑of‑Thought‑Methode (CoT) über reine Textschritte hinaus erweitert, um multimodale Probleme besser zu l…

arXiv – cs.AI 03.02.2026 05:00

Forschung

<h1>Wie viel Information kann ein Vision-Token speichern? Skalierungsregel für VLMs</h1> <p>Neueste vision‑zentrierte Modelle, wie DeepSeek‑OCR, haben die Fähigkeit, Text in Bildern in kontinuierliche Vision‑Tokens zu kodieren, ohne dabei die Erkennungsgenauigkeit zu verlieren. Durch diese hohe Kompression entsteht jedoch die Frage nach der maximalen Informationsmenge, die ein einzelner Token tragen kann.</p> <p>Um diese Grenze zu bestimmen, führten die Forscher gezielte Belastungstests durch, bei denen sie

arXiv – cs.LG 04.02.2026 05:00

Forschung

Federated Alignment: Neue Methode für heterogene Vision‑Language‑Modelle

Vision‑Language‑Modelle (VLMs) versprechen enorme Fortschritte in sensiblen Bereichen wie Medizin und Finanzen. Doch die strengen Datenschu…

arXiv – cs.AI 03.02.2026 05:00

Finde Modelle, Firmen und Themen

Autorisation on Demand: Dynamische Rechteverwaltung für Vision‑Language‑Modelle

Logit-basierte Unsicherheitsmessung verbessert Vertrauen in VLMs für Histopathologie

Vision‑Language‑Modelle revolutionieren multimodale Knowledge‑Graph‑Embeddings

DesignSense: 10.000+ Layout‑Paare für bessere Designpräferenzen

FireRedTeam präsentiert FireRed-OCR-2B: Halluzinationen in Tabellen und LaTeX

SPM-Bench: Neuer LLM-Benchmark für Scanning Probe Microscopy

PromptCD: Testzeit-Verhaltensverbesserung durch Polarisations-Prompt-Decoding

Vision‑Language‑Modelle: Neue Graphen prüfen kausales Denken

Neues Modell RB‑VLA verbessert Vision‑Language‑Action bei langen Aufgaben

LAMMI-Pathology: Agenten-Framework nutzt molekulare Daten für Pathologieanalyse

Vision‑Language‑Modelle: Feinabgestimmtes Wissen steigert Bildklassifikation

VLMs im autonomen Fahren: Textbias in synthetischen MCQAs drastisch reduziert

Vision‑Language‑Modelle zeigen starkes egocentrisches Bias bei Perspektivwechseln

Visuelle Daten verbessern Textmodelle: VLMs übertreffen LLMs bei Textaufgaben

Lang2Act: Selbstentwickelte Sprachwerkzeuge verbessern visuelle Wahrnehmung

RL-Feinabstimmung von VLMs: Robustheit und Konsistenz der Gedankenketten im Fokus

Found‑RL: RL mit Foundation‑Modellen für autonome Fahrzeugsimulation

REVIS: Sparsere latente Steuerung senkt Objekthalluzination in LVLMs

CrossTALK: Neuer Angriff auf Vision‑Language‑Modelle überwindet Sicherheit

SpotAgent: LVLMs meistern Geo‑Lokalisierung mit agentischem Denken

NarraScore: Musik für Videos dank hierarchischer Affektsteuerung

Diffusion- und autoregressive VLMs im Multimodal-Embedding-Raum verglichen

LQA: Leichtgewichtiges quantisiertes Framework für Vision‑Language‑Modelle Edge

Vision‑Language‑Modelle lösen Tangram‑Puzzles dank selbstreflektierender Testzeit‑Strategie

Modal‑Mixed Chain‑of‑Thought: Neue multimodale Denkweise mit latenten Embeddings

Federated Alignment: Neue Methode für heterogene Vision‑Language‑Modelle

🍪 Cookie-Einstellungen