Jina AI stellt Jina‑VLM vor: 2,4 Milliarden‑Parameter VLM für mehrsprachige Bild‑Fragen
Jina AI hat Jina‑VLM veröffentlicht, ein 2,4 Milliarden‑Parameter Vision‑Language‑Modell, das sich auf mehrsprachige Bild‑Fragen und Dokumentverständnis auf begrenzten Geräten konzentriert.
Das Modell kombiniert den SigLIP2‑Vision‑Encoder mit der Qwen3‑Sprachbasis und nutzt einen Attention‑Pooling‑Connector, um die Anzahl der Bild‑Tokens zu reduzieren, während die räumliche Struktur erhalten bleibt.
Durch diese token‑effiziente Architektur kann Jina‑VLM auf ressourcenbeschränkten Systemen eingesetzt werden, ohne die Leistung bei mehrsprachigen Visual‑QA-Aufgaben zu beeinträchtigen.
Im Vergleich zu anderen offenen VLMs der 2 Milliarden‑Skala hebt sich Jina‑VLM durch seine Kombination aus hoher Parameterzahl, Sprachvielfalt und Hardware‑Effizienz hervor.
Jina AI betont, dass das Modell besonders für Anwendungen in der Dokumentanalyse und im visuellen Dialog geeignet ist, wo schnelle und präzise Antworten auf Bild‑ und Textfragen erforderlich sind.