Z.ai präsentiert Open-Source GLM-4.6V: Vision‑Language‑Modell mit Tool‑Calling

Das chinesische KI-Startup Zhipu AI, besser bekannt als Z.ai, hat seine neue GLM‑4.6V‑Serie vorgestellt – ein Open‑Source Vision‑Language‑Modell (VLM), das speziell für multimodale Logik, Front‑End‑Automatisierung und effiziente Bereitstellung entwickelt wurde.

Die Serie umfasst zwei Varianten: GLM‑4.6V mit 106 Milliarden Parametern, ideal für Cloud‑Scale‑Inference, und GLM‑4.6V‑Flash mit 9 Milliarden Parametern, perfekt für lokale, latenzkritische Anwendungen. Größere Modelle liefern generell höhere Leistungsfähigkeit, während kleinere Modelle in ressourcenbeschränkten Umgebungen glänzen.

Ein entscheidender Fortschritt ist die native Tool‑Calling‑Funktion, die es dem Modell ermöglicht, direkt Werkzeuge wie Suchanfragen, Bildausschnitte oder Diagrammerkennung zu nutzen. Mit einer Kontextlänge von 128.000 Tokens – das entspricht etwa 300 Seiten eines Romans – und über 20 Benchmark‑Ergebnissen, die den Stand der Technik widerspiegeln, positioniert sich die GLM‑4.6V‑Serie als starke Alternative zu geschlossenen und offenen VLMs.

Die Modelle sind über eine OpenAI‑kompatible API zugänglich, ein interaktives Demo‑Interface steht auf der Zhipu‑Website bereit und die Gewichte können von Hugging Face heruntergeladen werden. Zusätzlich gibt es eine Desktop‑Assistant‑App, die die Nutzung erleichtert.

Mit der GLM‑4.6V‑Serie demonstriert Z.ai, dass Open‑Source‑VLMs nicht nur leistungsfähig, sondern auch flexibel und leicht einsetzbar sein können – ein bedeutender Schritt für die Weiterentwicklung multimodaler KI‑Anwendungen.

Ähnliche Artikel

🍪 Cookie-Einstellungen