Google stellt Gemini 3 Pro vor: Audio‑Transkription und neue Benchmarks

Simon Willison – Blog Original ≈2 Min. Lesezeit
Anzeige

Google hat heute die neue Version seiner KI‑Plattform, Gemini 3 Pro, veröffentlicht. Die Ankündigung wurde von Sundar Pichai, Demis Hassabis und Koray Kavukcuoglu begleitet und enthält zudem einen ausführlichen Blog‑Post von Logan Kilpatrick sowie die zugehörige Model Card.

Gemini 3 Pro ist im Wesentlichen ein Upgrade von Gemini 2.5. Es behält die gleiche Wissensgrenze von Januar 2025 bei, kann bis zu 1 Million Eingabetoken verarbeiten und liefert bis zu 64 000 Ausgabetoken. Die Plattform unterstützt multimodale Eingaben – Text, Bilder, Audio und Video – und bietet damit eine umfassende Flexibilität für verschiedenste Anwendungsfälle.

Nach den in der Model Card veröffentlichten Zahlen erzielt Gemini 3 Pro leicht bessere Ergebnisse als Claude 4.5 Sonnet und GPT‑5.1 bei den gängigen Standard‑Benchmarks. Google hat zudem einen neuen „Pelican“-Benchmark eingeführt, um die Leistungsfähigkeit bei Audio‑ und Video‑Aufgaben zu testen.

Die Preisstruktur von Gemini 3 Pro liegt etwas über der von Gemini 2.5, bleibt jedoch günstiger als Claude Sonnet 4.5. Die Kosten pro 1 Million Tokens sind wie folgt:

• Gemini 3 Pro (≤ 200 k Tokens) – 2 USD
• Gemini 3 Pro (> 200 k Tokens) – 4 USD
• Gemini 2.5 Pro (≤ 200 k Tokens) – 1,25 USD
• Gemini 2.5 Pro (> 200 k Tokens) – 2,50 USD
• Claude Sonnet 4.5 (≤ 200 k Tokens) – 3 USD
• Claude Sonnet 4.5 (> 200 k Tokens) – 6 USD

Ich hatte die Möglichkeit, Gemini 3 Pro über AI Studio vorab zu testen. Die Ergebnisse stimmen mit den veröffentlichten Benchmarks überein, und die KI zeigt eine beeindruckende Vielseitigkeit, insbesondere bei der Audio‑Transkription und der Verarbeitung komplexer Bild‑ und Videodaten.

Mit Gemini 3 Pro setzt Google einen weiteren Meilenstein in der KI‑Entwicklung und bietet Entwicklern ein leistungsfähiges, kosteneffizientes Tool, das die Konkurrenz in vielen Bereichen übertrifft.

Ähnliche Artikel