Baidu präsentiert Multimodal-Model: Mehr Leistung, weniger Rechenaufwand

Baidu Inc., das größte Suchmaschinenunternehmen Chinas, hat am Montag ein neues, quelloffenes KI-Modell vorgestellt, das laut den Entwicklern bei mehreren bildbezogenen Benchmarks die Konkurrenz von Google und OpenAI übertrifft. Das Modell, genannt ERNIE‑4.5‑VL‑28B‑A3B‑Thinking, soll die Fähigkeit besitzen, Bilder, Videos und Dokumente zusammen mit Text zu verstehen und logisch zu verarbeiten – ein entscheidender Vorteil für Unternehmensanwendungen wie automatisierte Dokumentenverarbeitung und Qualitätskontrolle in der Industrie.

Ein besonderes Merkmal des neuen Modells ist seine Effizienz. Während es insgesamt 28 Milliarden Parameter besitzt, werden bei jeder Inferenz lediglich 3 Milliarden Parameter aktiv genutzt. Durch eine ausgeklügelte Routing‑Architektur kann das System die Rechenlast drastisch reduzieren, ohne an Genauigkeit einzubüßen. Diese Technik ermöglicht es, die Leistung großer Konkurrenzmodelle zu erreichen oder zu übertreffen, obwohl weniger Rechenressourcen und Speicher benötigt werden.

In Tests hat ERNIE‑4.5‑VL‑28B‑A3B‑Thinking die Leistung von GPT‑5 und Gemini bei Aufgaben wie Dokumentenverständnis, Diagrammanalyse und visuellem Denken übertroffen. Die Ergebnisse zeigen, dass das Modell nicht nur schneller, sondern auch ressourcenschonender arbeitet, was besonders für Unternehmen von Interesse ist, die KI-Lösungen in großem Maßstab einsetzen wollen.

Die Veröffentlichung unterstreicht den intensiven Wettlauf zwischen Technologieunternehmen, KI-Systeme zu entwickeln, die über reine Textverarbeitung hinausgehen. Durch die Open‑Source-Natur des Modells können Entwickler weltweit darauf zugreifen, anpassen und in ihre eigenen Anwendungen integrieren, was die Weiterentwicklung multimodaler KI beschleunigt.

Ähnliche Artikel

🍪 Cookie-Einstellungen