Suche Anmelden

Forschung arXiv – cs.AI

GazeQwen: Leichtgewichtiges Gaze-Conditioned LLM für Streaming-Video-Analyse

30.03.2026 04:00 • ≈1 Min. Lesezeit • Originalquelle

#GazeQwen #multimodale Sprachmodelle #Blickdaten #Gaze‑Resampler #Low‑Rank‑Adapter #StreamGaze Benchmark #GitHub

Kernaussagen

Das nimmst du aus dem Beitrag mit

Ein neues Verfahren namens GazeQwen ermöglicht es multimodalen Sprachmodellen, Blickdaten effektiv zu nutzen, um Videoinhalte besser zu verstehen.
Durch die Integration von Augenbewegungen in die Modellarchitektur kann das System gezielt auf relevante Bildbereiche fokussieren, ohne die Modellgröße massiv zu erhöhen.
Im Kern steht ein kompakter Gaze‑Resampler, der nur 1 bis 5 Millionen lernbare Parameter benötigt.

Ein neues Verfahren namens GazeQwen ermöglicht es multimodalen Sprachmodellen, Blickdaten effektiv zu nutzen, um Videoinhalte besser zu verstehen. Durch die Integration von Augenbewegungen in die Modellarchitektur kann das System gezielt auf relevante Bildbereiche fokussieren, ohne die Modellgröße massiv zu erhöhen.

Im Kern steht ein kompakter Gaze‑Resampler, der nur 1 bis 5 Millionen lernbare Parameter benötigt. Er verarbeitet Video‑Features von V‑JEPA 2.1 zusammen mit positionsbasierten Fixationscodierungen und erzeugt additive Residuen. Diese Residuen werden über Forward‑Hooks in ausgewählte Decoder‑Schichten des LLM eingespeist. Optional kann ein zweiter Trainingsschritt mit Low‑Rank‑Adapters (LoRA) die Integration noch enger verknüpfen.

Auf dem StreamGaze‑Benchmark, der zehn Aufgaben umfasst, erreichte GazeQwen 63,9 % Genauigkeit – ein Plus von 16,1 Punkten gegenüber dem gleichen Qwen2.5‑VL‑7B‑Backbone, wenn Blickdaten als visuelle Hinweise verwendet wurden, und 10,5 Punkte mehr als GPT‑4o. Damit ist es das bestbewertete Modell unter allen getesteten Open‑Source‑ und proprietären Systemen. Der komplette Code und die Checkpoints sind auf GitHub verfügbar.

Einordnen in 60 Sekunden

Welche Linse du auf diese Meldung legen solltest

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

Was veraendert sich praktisch?

Ist das eher Signal, Produkt oder nur kurzfristiger Hype?

Begriffe zum Einordnen

Kontext ohne Glossar-Suche

GazeQwen

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

multimodale Sprachmodelle

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Blickdaten

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

arXiv – cs.AI

Diese Quelle setzt den Ausgangspunkt fuer die Meldung. Pruefe immer, ob sie eher Forschung, Produktmarketing oder Praxisperspektive liefert.

Lernpfad

Wenn du nach dieser Meldung weiterlernen willst

Themen-Hub

GazeQwen systematisch verfolgen

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

Archiv

Weitere Beispiele zu GazeQwen

Nutze das Archiv, um Muster, Wiederholungen und Trendlinien innerhalb des Themas zu sehen.

Im Themen-Cluster weiter

Von dieser Meldung direkt in Hub, Analyse und Nachbarthemen

Themen-Hub

GazeQwen

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

1 Signale in 7 Tagen • 1 Artikel im Hub

Hub oeffnen →

Naechste Schritte

Aehnliche Entwicklungen zum Weiterlesen

arXiv – cs.LG

Kontrollierte Fusion verbessert Zeitreihenprognosen mit Textdaten

25.03.2026 04:00

arXiv – cs.AI

ChipBench: Neuer Benchmark für LLMs im KI‑gestützten Chipdesign

30.01.2026 05:00

arXiv – cs.AI

RoboAlign: KI-gestützte Lernmethode steigert Robotik-Performance um bis zu 106 %

24.03.2026 04:00

arXiv – cs.AI

ResAgent: Entropie- und bildbasierte Methode für Referenzsegmentierung

26.01.2026 05:00

arXiv – cs.AI

KI‑Hippocampus: Wie nah sind wir an menschlichem Gedächtnis?<br/>

15.01.2026 05:00

VentureBeat – AI

Claude Code kostet bis zu 200 $ pro Monat – Goose bietet dieselbe Leistung kostenlos

19.01.2026 14:00

Warum das wichtig ist

Relevant fuer Leserinnen und Leser, die KI nicht nur verfolgen, sondern einordnen wollen: Der Beitrag zeigt, was sich bei GazeQwen, multimodale Sprachmodelle konkret verschiebt und welche Folgen das fuer Nutzung, Produkte oder Entscheidungen haben kann. Ausgangspunkt ist die Quelle arXiv – cs.AI.

Quellenklarheit

Quelle: arXiv – cs.AI
Original: Zum Ursprungsbeitrag
Website: arXiv – cs.AI

Themenradar

Themen folgen

GazeQwen

multimodale Sprachmodelle

Blickdaten

Gaze‑Resampler

Morning Briefing

Diese Themen im Briefing verfolgen

Wenn dich genau diese Themen wieder interessieren werden, mach daraus einen festen Morgen-Slot statt einzelner Zufallsklicks.

Briefing mit Fokus konfigurieren →

Welche Linse du auf diese Meldung legen solltest

Kontext ohne Glossar-Suche

Wenn du nach dieser Meldung weiterlernen willst

Von dieser Meldung direkt in Hub, Analyse und Nachbarthemen

Aehnliche Entwicklungen zum Weiterlesen

🍪 Cookie-Einstellungen