Open-Weight-LLMs zeigen stark unterschiedliche Leistungen je Anbieter
Artificial Analysis hat kürzlich einen neuen Benchmark veröffentlicht, der die Leistung des OpenAI‑Modells gpt-oss-120b auf verschiedenen Hosting‑Anbietern untersucht. Die Ergebnisse überraschten mit deutlichen Leistungsunterschieden, insbesondere bei der Auswertung der 2025 AIME (American Invitational Mathematics Examination) mit 32 Durchläufen pro Modell und einer hohen Rechenintensität.