Zhipu AI stellt GLM-4.6V vor: 128K-Kontext-Visionmodell mit Tool‑Aufruf

MarkTechPost Original ≈1 Min. Lesezeit
Anzeige

Zhipu AI hat die GLM‑4.6V‑Serie als Open‑Source‑Vision‑Language‑Modelle veröffentlicht, die Bilder, Videos und Tools als gleichwertige Eingaben für Agenten behandeln – nicht als nachträgliche Ergänzung zu Text.

Die Serie umfasst zwei Modelle. GLM‑4.6V ist ein 106‑Billionen‑Parameter‑Fundamentmodell, das in der Cloud eingesetzt werden kann und einen beeindruckenden Kontextumfang von 128 000 Tokens unterstützt.

Ein besonderes Merkmal ist die native Tool‑Aufruf‑Funktion, die es Agenten ermöglicht, direkt mit externen Anwendungen zu interagieren. Damit setzt Zhipu AI einen neuen Standard für multimodale KI‑Systeme, die sowohl visuelle als auch textuelle Informationen nahtlos verarbeiten.

Ähnliche Artikel