Suche nach cross-modal | meineki.news

MolFM-Lite: Mehrdimensionales Molekülmodell steigert Vorhersagegenauigkeit um 11 %

Ein neues Modell namens MolFM-Lite kombiniert drei unterschiedliche Darstellungen von Molekülen – die 1‑D‑Sequenz in SELFIES, die 2‑D‑Graph…

arXiv – cs.LG 27.02.2026 05:00

Forschung

Physikbasierte Analyse von Querschnitts-Bias in multimodalen Modellen

Ein neues Positionspapier beleuchtet die Frage der algorithmischen Fairness in multimodalen großen Sprachmodellen (MLLMs). Dabei wird unter…

arXiv – cs.AI 25.02.2026 05:00

Forschung

Neues Modell sleep2vec vereint nächtliche Biosignale trotz Gerätediversität

In der Schlafmedizin und klinischen Diagnostik werden bislang verschiedene Geräte – von Polysomnographien über stationäre Monitore bis hin…

arXiv – cs.LG 17.02.2026 05:00

Forschung

Nur 15 % der Tokens sind entscheidend: Technik verbessert multimodale KI-Logik

Mit Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) wurden die Denkfähigkeiten multimodaler Large Language Models (MLLMs) deu…

arXiv – cs.AI 13.02.2026 05:00

Forschung

Omni‑Safety: Studie enthüllt Schwachstellen und Lösungen für multimodale KI

Eine neue Untersuchung aus dem Bereich der künstlichen Intelligenz hat die Sicherheitslücken von Omni‑modalen großen Sprachmodellen (OLLMs)…

arXiv – cs.AI 12.02.2026 05:00

Forschung

CrossTALK: Neuer Angriff auf Vision‑Language‑Modelle überwindet Sicherheit

In einer kürzlich veröffentlichten Studie auf arXiv (2602.10148v1) haben Forscher einen bahnbrechenden Angriff auf Vision‑Language‑Modelle…

arXiv – cs.AI 12.02.2026 05:00

Forschung

<p>Alignment Curse: Text‑Jailbreaks übertragen sich auf Audio in Omni‑Modellen</p> <p>In den letzten Monaten haben end‑to‑end trainierte Omni‑Modelle die multimodale Verständniskapazität deutlich gesteigert. Gleichzeitig hat sich das Sicherheits‑Red‑Teaming von rein textbasierten Angriffen auf audio‑basierte Jailbreaks ausgeweitet. Doch die Brücke zwischen Text‑ und Audio‑Jailbreaks blieb bislang wenig erforscht.</p> <p>Die vorliegende Arbeit untersucht, wie sich Jailbreak‑Methoden von Text auf Audio übertr

arXiv – cs.LG 04.02.2026 05:00

Forschung

Cross-Modal Memory Compression für effiziente Mehragenten-Debatten

Mehragenten-Debatten können die Qualität von Argumenten steigern und Halluzinationen reduzieren, doch mit jeder Debattenrunde und jedem zus…

arXiv – cs.AI 03.02.2026 05:00

Forschung

MAD: Modality-Adaptive Decoding reduziert Halluzinationen in multimodalen LLMs

Multimodale Large Language Models (MLLMs) leiden häufig unter sogenannten Cross‑Modal‑Halluzinationen, bei denen eine Modalität unpassend E…

arXiv – cs.AI 30.01.2026 05:00

Forschung

DataCross: Benchmark & Agenten-Framework für heterogene Datenanalyse

In der Praxis sind wichtige Informationen häufig in unterschiedlichen Formaten verstreut – strukturierte Quellen wie SQL‑Tabellen oder CSV‑…

arXiv – cs.AI 30.01.2026 05:00

Forschung

SpecBridge: Brücke zwischen Massenspektrometrie und Molekülrepräsentationen

Die Identifizierung von kleinen Molekülen aus Tandem-Massenspektrometrie (MS/MS) bleibt ein entscheidendes Hindernis, wenn die Spektrallibr…

arXiv – cs.LG 27.01.2026 05:00

Forschung

ES4R: Sprachmodell für empathische Antworten mit Vorhersage von Gefühlen

In der Welt der Sprachdialoge ist Empathie weit mehr als nur das Verstehen von Wörtern. Sie erfordert auch die Wahrnehmung von Prosodie, To…

arXiv – cs.AI 26.01.2026 05:00

Forschung

<h1>Cloud-basierter Cross-Modal-Transformer revolutioniert Emotionserkennung in HCI</h1> <p>Emotionserkennung ist ein zentrales Element der nächsten Generation menschlicher Computerinteraktion. Traditionelle Systeme analysieren meist nur ein einziges Modalität – sei es Gesichtsausdruck, Stimmlage oder Textsentiment – was ihre Robustheit und Generalisierbarkeit in realen Umgebungen stark einschränkt.</p> <p>In einer neuen Studie wird ein Cloud‑basierter Cross‑Modal‑Transformer (CMT) vorgestellt, der visuelle

arXiv – cs.AI 22.01.2026 05:00

Forschung

Neues multiskaliges Modell erkennt lipiddefizientes ccRCC präzise voroperativ

Forscher haben ein neuartiges, hierarchisches Modell entwickelt, das molekulare Signale, histologische Details und CT‑Bilder miteinander ve…

arXiv – cs.AI 18.12.2025 05:00

Forschung

Neue Benchmarks zeigen: Multimodale LLMs liefern inkonsistente Antworten

Forscher haben zwei neue Benchmarks – REST und REST+ (Render‑Equivalence Stress Tests) – entwickelt, um die Konsistenz multimodaler Large L…

arXiv – cs.AI 10.12.2025 05:00

Forschung

LLM-gestützte FiCoTS revolutioniert Zeitreihenprognosen

Ein neues arXiv-Papier (v1, 25.12.2025) präsentiert FiCoTS, ein innovatives Modell, das die Leistungsfähigkeit großer Sprachmodelle (LLMs)…

arXiv – cs.LG 02.12.2025 05:00

Forschung

Neue Übersicht: Chunking-Strategien für multimodale KI-Systeme

Eine neue Studie aus dem arXiv-Repository bietet einen umfassenden Überblick über Chunking-Strategien für multimodale KI-Systeme. Ziel ist…

arXiv – cs.AI 02.12.2025 05:00

Forschung

Robuste Lernmethoden: Konsistenz‑gesteuerter Transfer gegen Unsicherheit

In der multimodalen KI‑Forschung stellen unsichere Daten, fehlerhafte Labels und heterogene Modalitäten häufig ein großes Hindernis dar – b…

arXiv – cs.AI 21.11.2025 05:00

Forschung

Neues Active-Learning-Verfahren verbessert EEG-basierte Emotions-Erkennung

Die Erkennung von Emotionen aus Elektroenzephalogrammen (EEG) ist wegen der begrenzten Verfügbarkeit hochwertiger Labels, der Anfälligkeit…

arXiv – cs.LG 20.11.2025 05:00

Forschung

KI-Modell prognostiziert Flugverspätungen mit Trajektorien- und Textdaten

In der Luftverkehrssteuerung wird die Vorhersage von Flugverspätungen immer wichtiger, weil sie Ineffizienzen aufdecken, die das gesamte Ne…

arXiv – cs.LG 29.10.2025 04:00

Forschung

Earth AI: Geodaten neu entschlüsselt – KI-Modelle liefern bahnbrechende Erkenntnisse

Ein neues Forschungsprojekt namens Earth AI eröffnet die Möglichkeit, die riesigen Mengen an Geodaten, die unser Planet liefern, effiziente…

arXiv – cs.AI 22.10.2025 05:00

Forschung

Edu-EmotionNet: Dynamische multimodale Emotionserkennung für Online‑Lernen

In der Online‑Bildung ist das Verständnis von Lernenden‑Emotionen entscheidend, um Engagement zu steigern und personalisierte Lernpfade zu…

arXiv – cs.LG 13.10.2025 05:00

Forschung

VistaWise: Kosten‑effizienter Agent mit multimodaler Wissensgraphen für Minecraft

Große Sprachmodelle haben in den letzten Jahren enorme Fortschritte bei der Entscheidungsfindung in virtuellen Open‑World‑Umgebungen erziel…

arXiv – cs.AI 27.08.2025 05:00

Forschung

Multimodale Finanzprognosen: Sentiment & Marktindikatoren via Cross‑Modal Attention

Forscher haben das neue Modell STONK (Stock Optimization using News Knowledge) vorgestellt, das numerische Marktindikatoren mit sentiment‑a…

arXiv – cs.AI 20.08.2025 05:00

Forschung

CC-Time: Sprachmodelle revolutionieren Zeitreihen‑Vorhersagen

Die jüngsten Fortschritte bei vortrainierten Sprachmodellen (PLMs) haben die Welt der Zeitreihen‑Vorhersage (TSF) neu belebt. Trotz ihrer b…

arXiv – cs.LG 19.08.2025 05:00

Forschung

Cross-Modal-Ansatz erkennt Gerüchte mit kontrastivem Lernen von Text und Bild

Forscher haben ein neues Verfahren zur Erkennung von Gerüchten entwickelt, das Text- und Bildinhalte gleichzeitig nutzt. Durch die Kombinat…

arXiv – cs.AI 18.08.2025 05:00

Finde Modelle, Firmen und Themen

MolFM-Lite: Mehrdimensionales Molekülmodell steigert Vorhersagegenauigkeit um 11 %

Physikbasierte Analyse von Querschnitts-Bias in multimodalen Modellen

Neues Modell sleep2vec vereint nächtliche Biosignale trotz Gerätediversität

Nur 15 % der Tokens sind entscheidend: Technik verbessert multimodale KI-Logik

Omni‑Safety: Studie enthüllt Schwachstellen und Lösungen für multimodale KI

CrossTALK: Neuer Angriff auf Vision‑Language‑Modelle überwindet Sicherheit

Cross-Modal Memory Compression für effiziente Mehragenten-Debatten

MAD: Modality-Adaptive Decoding reduziert Halluzinationen in multimodalen LLMs

DataCross: Benchmark & Agenten-Framework für heterogene Datenanalyse

SpecBridge: Brücke zwischen Massenspektrometrie und Molekülrepräsentationen

ES4R: Sprachmodell für empathische Antworten mit Vorhersage von Gefühlen

Neues multiskaliges Modell erkennt lipiddefizientes ccRCC präzise voroperativ

Neue Benchmarks zeigen: Multimodale LLMs liefern inkonsistente Antworten

LLM-gestützte FiCoTS revolutioniert Zeitreihenprognosen

Neue Übersicht: Chunking-Strategien für multimodale KI-Systeme

Robuste Lernmethoden: Konsistenz‑gesteuerter Transfer gegen Unsicherheit

Neues Active-Learning-Verfahren verbessert EEG-basierte Emotions-Erkennung

KI-Modell prognostiziert Flugverspätungen mit Trajektorien- und Textdaten

Earth AI: Geodaten neu entschlüsselt – KI-Modelle liefern bahnbrechende Erkenntnisse

Edu-EmotionNet: Dynamische multimodale Emotionserkennung für Online‑Lernen

VistaWise: Kosten‑effizienter Agent mit multimodaler Wissensgraphen für Minecraft

Multimodale Finanzprognosen: Sentiment & Marktindikatoren via Cross‑Modal Attention

CC-Time: Sprachmodelle revolutionieren Zeitreihen‑Vorhersagen

Cross-Modal-Ansatz erkennt Gerüchte mit kontrastivem Lernen von Text und Bild

🍪 Cookie-Einstellungen

MolFM-Lite: Mehrdimensionales Molekülmodell steigert Vorhersagegenauigkeit um 11 %

Nur 15 % der Tokens sind entscheidend: Technik verbessert multimodale KI-Logik