Suche nach multimodale KI

Neues Tri-Modal Diffusion-Modell: 3B-Parameter-Ansatz für Text, Bild und Audio

Ein völlig neuer Ansatz für multimodale KI hat die Forschung erschüttert: Das erste Tri‑Modal‑Masked‑Diffusion‑Modell, das von Grund auf mi…

arXiv – cs.LG 26.02.2026 05:00

Forschung

DeepVision-103K: Vielfältiges, breit abgedecktes Mathe-Dataset für multimodale KI

Mit dem neuen Datensatz DeepVision-103K wird die Forschung im Bereich multimodaler KI einen bedeutenden Schritt nach vorne. Der Datensatz w…

arXiv – cs.LG 20.02.2026 05:00

Forschung

ModalImmune: Training-Framework stärkt multimodale Systeme gegen Modality-Ausfall

Multimodale KI‑Modelle sind in der Praxis oft anfällig, wenn ein oder mehrere Eingangskanäle plötzlich fehlen oder stark verfälscht werden…

arXiv – cs.LG 19.02.2026 05:00

Forschung

Nur 15 % der Tokens sind entscheidend: Technik verbessert multimodale KI-Logik

Mit Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) wurden die Denkfähigkeiten multimodaler Large Language Models (MLLMs) deu…

arXiv – cs.AI 13.02.2026 05:00

Forschung

Omni‑Safety: Studie enthüllt Schwachstellen und Lösungen für multimodale KI

Eine neue Untersuchung aus dem Bereich der künstlichen Intelligenz hat die Sicherheitslücken von Omni‑modalen großen Sprachmodellen (OLLMs)…

arXiv – cs.AI 12.02.2026 05:00

Forschung

Selbstreflektierende Modelle: Endogenous Reprompting verbessert multimodale KI

Neue Forschung zeigt, dass multimodale KI‑Modelle zwar ein tiefes Verständnis besitzen, aber ihre eigene Generierung oft nicht optimal steu…

arXiv – cs.AI 29.01.2026 05:00

Forschung

TelcoAI verbessert 3GPP-Spezifikationssuche um 16 % dank agentischer, multimodaler KI

Die 3rd Generation Partnership Project (3GPP) liefert weltweit die technischen Grundlagen für Mobilfunknetze, doch ihre komplexen, hierarch…

arXiv – cs.LG 27.01.2026 05:00

Forschung

METAL: Mit wenigen linearen Schichten Sprachen in multimodale Modelle einbinden

Multimodale KI‑Modelle zeigen bisher vor allem im Englischen beeindruckende Ergebnisse, weil dort reichlich Bild‑Text‑ und Audio‑Text‑Daten…

arXiv – cs.LG 16.01.2026 05:00

Forschung

Neues multimodales Judge-Modell liefert zuverlässige, erklärbare Bewertungen

Ein neues multimodales Judge-Modell wurde vorgestellt, das zuverlässige und erklärbare Bewertungen für eine breite Palette von Aufgaben lie…

arXiv – cs.LG 13.01.2026 05:00

Produkt

Videoverständnis revolutioniert: TwelveLabs Marengo auf Amazon Bedrock

Entdecken Sie, wie das Embedding-Modell TwelveLabs Marengo, das auf Amazon Bedrock verfügbar ist, das Videoverständnis durch multimodale KI…

AWS – Machine Learning Blog 16.12.2025 18:51

Praxis

Zhipu AI stellt GLM-4.6V vor: 128K-Kontext-Visionmodell mit Tool‑Aufruf

Zhipu AI hat die GLM‑4.6V‑Serie als Open‑Source‑Vision‑Language‑Modelle veröffentlicht, die Bilder, Videos und Tools als gleichwertige Eing…

MarkTechPost 09.12.2025 08:13

Forschung

MIND: Neues Framework für multimodale KI – Mehr rationale, robustere Entscheidungen

In den letzten Jahren haben multimodale große Sprachmodelle (MLLMs) enorme Fortschritte bei komplexen Denkaufgaben erzielt. Trotz ihrer Lei…

arXiv – cs.AI 08.12.2025 05:00

Forschung

Chameleon: Adaptive Angriffe auf Bildskalierung in multimodalen KI-Systemen

Multimodale KI‑Modelle, insbesondere Vision‑Language‑Modelle (VLMs), sind heute in vielen kritischen Anwendungen wie autonomer Entscheidung…

arXiv – cs.AI 05.12.2025 05:00

Forschung

Omni-AutoThink: Adaptive multimodale Argumentation mit Reinforcement Learning

Ein neues Forschungsprojekt namens Omni-AutoThink wurde vorgestellt, das die Art und Weise, wie multimodale KI‑Modelle denken, revolutionie…

arXiv – cs.AI 04.12.2025 05:00

Forschung

OmniGuard: Einheitliche Schutzmechanismen für multimodale KI

Mit dem Aufkommen von Omni‑Modal Large Language Models (OLLMs), die Text, Bilder, Videos und Audio verarbeiten, entstehen neue Herausforder…

arXiv – cs.AI 03.12.2025 05:00

Aktuell

OpenMMReasoner: Mehr multimodale KI‑Logik mit kleineren, smarteren Datensätzen

Forscher von MiroMind AI in Zusammenarbeit mit mehreren chinesischen Universitäten haben das neue Trainingsframework OpenMMReasoner vorgest…

VentureBeat – AI 02.12.2025 12:30

Forschung

Rep3Net: Multimodale KI für präzise Vorhersage molekularer Bioaktivität

In der frühen Phase der Wirkstoffentwicklung spielt die Vorhersage der Bioaktivität von Molekülen gegen Zielproteine eine entscheidende Rol…

arXiv – cs.LG 02.12.2025 05:00

Forschung

Neue Übersicht: Chunking-Strategien für multimodale KI-Systeme

Eine neue Studie aus dem arXiv-Repository bietet einen umfassenden Überblick über Chunking-Strategien für multimodale KI-Systeme. Ziel ist…

arXiv – cs.AI 02.12.2025 05:00

Forschung

TIM-PRM: Tool-gestützte Verifikation multimodaler Modelle

Multimodale große Sprachmodelle (MLLMs) haben in der mathematischen Logik beeindruckende Fortschritte erzielt, bleiben jedoch anfällig für…

arXiv – cs.AI 01.12.2025 05:00

Forschung

VICoT: KI-Agent mit Vision-Interleaved Chain-of-Thought für Fernerkundung

Ein brandneuer KI-Agent namens VICoT (Vision‑Interleaved Chain‑of‑Thought) verspricht, die Analyse von Fernerkundungsbildern auf ein völlig…

arXiv – cs.AI 26.11.2025 05:00

Forschung

CURENet: Multimodale KI verbessert Vorhersage chronischer Krankheiten

Ein neues Modell namens CURENet nutzt die Kraft großer Sprachmodelle und Transformer‑Encoder, um die vielfältigen Daten aus elektronischen…

arXiv – cs.AI 17.11.2025 05:00

Aktuell

Baidus ERNIE multimodales KI-Modell übertrifft GPT und Gemini bei Tests

Baidu hat mit seinem neuesten Modell ERNIE‑4.5‑VL‑28B‑A3B‑Thinking einen Meilenstein gesetzt. Das hoch effiziente multimodale KI-System erz…

AI News (TechForge) 12.11.2025 16:09

Produkt

Vier Kollaborationsmuster für Multi-Agenten mit Strands Agents & Amazon Nova

In diesem Beitrag werden vier zentrale Kollaborationsmuster für Multi-Agenten- und multimodale KI-Systeme vorgestellt: Agents as Tools, Swa…

AWS – Machine Learning Blog 11.11.2025 20:28

Forschung

Neue Methode macht multimodale KI robust gegen Unsicherheiten

Wissenschaftler haben ein neues Verfahren entwickelt, das multimodale KI-Modelle gegen Unsicherheiten absichert. Durch die Anwendung von di…

arXiv – cs.LG 11.11.2025 05:00

Forschung

Foundation-Modelle kämpfen mit Modalitätsungleichgewicht bei multimodaler Logik

Foundation‑Modelle (FMs) sind heute in vielen realen Anwendungen – von Computer‑Assistenten bis hin zu autonomen Systemen – im Einsatz. Dam…

arXiv – cs.AI 06.10.2025 05:00

Forschung

Interpretierbare multimodale KI revolutioniert Überlebensanalyse in der Onkologie

In der Onkologie bleibt die präzise Vorhersage von Überlebenszeiten ein zentrales Problem. Mit dem Aufkommen umfangreicher multimodaler Dat…

arXiv – cs.AI 29.09.2025 05:00

Forschung

BTW: Neues, nicht-parametrisches Verfahren verbessert multimodale Modelle

Modulare Expertensysteme (Mixture-of-Experts, MoE) haben die multimodale KI revolutioniert, indem sie die Spezialisierung einzelner Modelle…

arXiv – cs.LG 27.08.2025 05:00

Forschung

MAC: Live-Benchmark für multimodale KI im wissenschaftlichen Verständnis

Mit dem neuen Benchmark MAC (Multimodal Academic Cover) wird die Bewertung von multimodalen großen Sprachmodellen (MLLMs) neu definiert. MA…

arXiv – cs.AI 25.08.2025 05:00

Forschung

REFINE: Fehlerbasierte Rückmeldung verbessert multimodale KI-Logik

In den letzten Jahren haben große Sprachmodelle (LLMs) ihre Fähigkeit zum logischen Denken stark erweitert. Durch in‑Kontext‑Learning (ICL)…

arXiv – cs.LG 25.08.2025 05:00

Forschung

Curriculum Learning steigert KI-Genauigkeit bei multimodaler Fragebeantwortung

Das Team „Dianping‑Trust‑Safety“ hat mit seinem Beitrag zum META CRAG‑MM‑Wettbewerb einen Meilenstein in der multimodalen Frage‑und‑Antwort…

arXiv – cs.AI 15.08.2025 05:00

Finde Modelle, Firmen und Themen

Neues Tri-Modal Diffusion-Modell: 3B-Parameter-Ansatz für Text, Bild und Audio

DeepVision-103K: Vielfältiges, breit abgedecktes Mathe-Dataset für multimodale KI

ModalImmune: Training-Framework stärkt multimodale Systeme gegen Modality-Ausfall

Nur 15 % der Tokens sind entscheidend: Technik verbessert multimodale KI-Logik

Omni‑Safety: Studie enthüllt Schwachstellen und Lösungen für multimodale KI

Selbstreflektierende Modelle: Endogenous Reprompting verbessert multimodale KI

TelcoAI verbessert 3GPP-Spezifikationssuche um 16 % dank agentischer, multimodaler KI

METAL: Mit wenigen linearen Schichten Sprachen in multimodale Modelle einbinden

Neues multimodales Judge-Modell liefert zuverlässige, erklärbare Bewertungen

Videoverständnis revolutioniert: TwelveLabs Marengo auf Amazon Bedrock

Zhipu AI stellt GLM-4.6V vor: 128K-Kontext-Visionmodell mit Tool‑Aufruf

MIND: Neues Framework für multimodale KI – Mehr rationale, robustere Entscheidungen

Chameleon: Adaptive Angriffe auf Bildskalierung in multimodalen KI-Systemen

Omni-AutoThink: Adaptive multimodale Argumentation mit Reinforcement Learning

OmniGuard: Einheitliche Schutzmechanismen für multimodale KI

OpenMMReasoner: Mehr multimodale KI‑Logik mit kleineren, smarteren Datensätzen

Rep3Net: Multimodale KI für präzise Vorhersage molekularer Bioaktivität

Neue Übersicht: Chunking-Strategien für multimodale KI-Systeme

TIM-PRM: Tool-gestützte Verifikation multimodaler Modelle

VICoT: KI-Agent mit Vision-Interleaved Chain-of-Thought für Fernerkundung

CURENet: Multimodale KI verbessert Vorhersage chronischer Krankheiten

Baidus ERNIE multimodales KI-Modell übertrifft GPT und Gemini bei Tests

Vier Kollaborationsmuster für Multi-Agenten mit Strands Agents & Amazon Nova

Neue Methode macht multimodale KI robust gegen Unsicherheiten

Foundation-Modelle kämpfen mit Modalitätsungleichgewicht bei multimodaler Logik

Interpretierbare multimodale KI revolutioniert Überlebensanalyse in der Onkologie

BTW: Neues, nicht-parametrisches Verfahren verbessert multimodale Modelle

MAC: Live-Benchmark für multimodale KI im wissenschaftlichen Verständnis

REFINE: Fehlerbasierte Rückmeldung verbessert multimodale KI-Logik

Curriculum Learning steigert KI-Genauigkeit bei multimodaler Fragebeantwortung

🍪 Cookie-Einstellungen

Nur 15 % der Tokens sind entscheidend: Technik verbessert multimodale KI-Logik

TelcoAI verbessert 3GPP-Spezifikationssuche um 16 % dank agentischer, multimodaler KI