Zhipu AI stellt GLM-4.6V vor: 128K-Kontext-Visionmodell mit Tool‑Aufruf
Anzeige
Zhipu AI hat die GLM‑4.6V‑Serie als Open‑Source‑Vision‑Language‑Modelle veröffentlicht, die Bilder, Videos und Tools als gleichwertige Eingaben für Agenten behandeln – nicht als nachträgliche Ergänzung zu Text.
Die Serie umfasst zwei Modelle. GLM‑4.6V ist ein 106‑Billionen‑Parameter‑Fundamentmodell, das in der Cloud eingesetzt werden kann und einen beeindruckenden Kontextumfang von 128 000 Tokens unterstützt.
Ein besonderes Merkmal ist die native Tool‑Aufruf‑Funktion, die es Agenten ermöglicht, direkt mit externen Anwendungen zu interagieren. Damit setzt Zhipu AI einen neuen Standard für multimodale KI‑Systeme, die sowohl visuelle als auch textuelle Informationen nahtlos verarbeiten.
Ähnliche Artikel
VentureBeat – AI
•
Z.ai präsentiert Open-Source GLM-4.6V: Vision‑Language‑Modell mit Tool‑Calling
Analytics Vidhya
•
Z.ai präsentiert GLM‑4.6V: Das neue Visual‑AI-Modell im Fokus
arXiv – cs.AI
•
Chameleon: Adaptive Angriffe auf Bildskalierung in multimodalen KI-Systemen
arXiv – cs.AI
•
Omni-AutoThink: Adaptive multimodale Argumentation mit Reinforcement Learning
arXiv – cs.AI
•
Neue Übersicht: Chunking-Strategien für multimodale KI-Systeme
arXiv – cs.AI
•
Hybrid-DMKG: Multimodale Mehrstufige Fragen mit Wissensbearbeitung