Baidu präsentiert Multimodal-Model: Mehr Leistung, weniger Rechenaufwand
Baidu Inc., das größte Suchmaschinenunternehmen Chinas, hat am Montag ein neues, quelloffenes KI-Modell vorgestellt, das laut den Entwicklern bei mehreren bildbezogenen Benchmarks die Konkurrenz von Google und OpenAI üb…
- Baidu Inc., das größte Suchmaschinenunternehmen Chinas, hat am Montag ein neues, quelloffenes KI-Modell vorgestellt, das laut den Entwicklern bei mehreren bildbezogenen…
- Das Modell, genannt ERNIE‑4.5‑VL‑28B‑A3B‑Thinking, soll die Fähigkeit besitzen, Bilder, Videos und Dokumente zusammen mit Text zu verstehen und logisch zu verarbeiten –…
- Ein besonderes Merkmal des neuen Modells ist seine Effizienz.
Baidu Inc., das größte Suchmaschinenunternehmen Chinas, hat am Montag ein neues, quelloffenes KI-Modell vorgestellt, das laut den Entwicklern bei mehreren bildbezogenen Benchmarks die Konkurrenz von Google und OpenAI übertrifft. Das Modell, genannt ERNIE‑4.5‑VL‑28B‑A3B‑Thinking, soll die Fähigkeit besitzen, Bilder, Videos und Dokumente zusammen mit Text zu verstehen und logisch zu verarbeiten – ein entscheidender Vorteil für Unternehmensanwendungen wie automatisierte Dokumentenverarbeitung und Qualitätskontrolle in der Industrie.
Ein besonderes Merkmal des neuen Modells ist seine Effizienz. Während es insgesamt 28 Milliarden Parameter besitzt, werden bei jeder Inferenz lediglich 3 Milliarden Parameter aktiv genutzt. Durch eine ausgeklügelte Routing‑Architektur kann das System die Rechenlast drastisch reduzieren, ohne an Genauigkeit einzubüßen. Diese Technik ermöglicht es, die Leistung großer Konkurrenzmodelle zu erreichen oder zu übertreffen, obwohl weniger Rechenressourcen und Speicher benötigt werden.
In Tests hat ERNIE‑4.5‑VL‑28B‑A3B‑Thinking die Leistung von GPT‑5 und Gemini bei Aufgaben wie Dokumentenverständnis, Diagrammanalyse und visuellem Denken übertroffen. Die Ergebnisse zeigen, dass das Modell nicht nur schneller, sondern auch ressourcenschonender arbeitet, was besonders für Unternehmen von Interesse ist, die KI-Lösungen in großem Maßstab einsetzen wollen.
Die Veröffentlichung unterstreicht den intensiven Wettlauf zwischen Technologieunternehmen, KI-Systeme zu entwickeln, die über reine Textverarbeitung hinausgehen. Durch die Open‑Source-Natur des Modells können Entwickler weltweit darauf zugreifen, anpassen und in ihre eigenen Anwendungen integrieren, was die Weiterentwicklung multimodaler KI beschleunigt.
Welche Linse du auf diese Meldung legen solltest
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.
Kontext ohne Glossar-Suche
Wenn du nach dieser Meldung weiterlernen willst
Von dieser Meldung direkt in Hub, Analyse und Nachbarthemen
Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.