ERNIE‑4.5‑VL: Bild‑gestützte KI in einem 3‑Billionen‑Parameter‑Modell
Die Open‑Source‑Familie von Ernie, die seit einiger Zeit stillstand, kehrt mit einem neuen Modell zurück, das die Erwartungen übertreffen soll.
Der Release von ERNIE‑4.5‑VL erfolgte zunächst unauffällig, doch das Ziel ist klar: einen großen Einfluss auf die multimodale KI‑Forschung zu nehmen. Mit dem „Thinking with Images“-Modus arbeitet das Modell bereits bei weniger als 3 Milliarden Parametern.
Das neue Modell kombiniert Bild‑ und Textverständnis und ermöglicht komplexe multimodale Aufgaben wie Bild‑zu‑Text‑Erklärungen, visuelle Frage‑Antworten und Bild‑basierte Textgenerierung. Die Entwickler betonen, dass die Architektur auf Effizienz ausgelegt ist, sodass selbst kleinere Rechenressourcen ausreichen.
In der vorliegenden Analyse wird die Leistung von ERNIE‑4.5‑VL mit aktuellen Benchmarks verglichen. Die Ergebnisse zeigen, dass das Modell in vielen Tests die Konkurrenz übertrifft, während es gleichzeitig eine geringere Parameterzahl nutzt.
Für Forscher und Entwickler, die nach einer leistungsstarken, aber ressourcenschonenden multimodalen Lösung suchen, bietet ERNIE‑4.5‑VL eine vielversprechende Option. Die Veröffentlichung unterstreicht, dass Open‑Source‑KI weiterhin innovative Fortschritte erzielt.