AI Consumer Index (ACE) bewertet KI-Modelle für Alltagsaufgaben
Der neue AI Consumer Index (ACE) stellt ein umfassendes Benchmarking-Tool dar, das die Leistungsfähigkeit moderner KI‑Modelle bei hochwertigen Verbraucheraufgaben prüft. ACE umfasst ein verstecktes Testset mit 400 Fällen, die in vier Kategorien aufgeteilt sind: Shopping, Food, Gaming und DIY.
Zur Förderung der Forschung wird ein Entwickler‑Set mit 80 Fällen unter einer CC‑BY‑Lizenz freigegeben. Für die ACE‑Leaderboard‑Bewertung wurden zehn Spitzenmodelle mit aktivierter Websuche getestet. Dabei kommt eine neuartige Bewertungsmethode zum Einsatz, die prüft, ob relevante Antwortteile durch die abgerufenen Webquellen gestützt werden.
Die Ergebnisse zeigen, dass GPT‑5 (Thinking = High) mit 56,1 % die höchste Punktzahl erzielt, gefolgt von o3 Pro (Thinking = On) mit 55,2 % und GPT‑5.1 (Thinking = High) mit 55,1 %. Die Leistungen variieren stark zwischen den Domänen; im Shopping-Bereich liegt die beste Punktzahl unter 50 %. Besonders bei Anfragen nach genauen Preisen oder funktionierenden Links neigen die Modelle zu Halluzinationen.
Insgesamt verdeutlicht ACE einen erheblichen Leistungsabstand zwischen den besten KI‑Modellen und den tatsächlichen Bedürfnissen der Verbraucher, was die Notwendigkeit weiterer Forschung und Optimierung unterstreicht.