Neuer Benchmark KAMI zeigt, dass Unternehmens-LLMs nicht immer besser sind
Ein neues Benchmark-Tool namens Kamiwaza Agentic Merit Index (KAMI) v0.1 wurde vorgestellt, um die Leistungsfähigkeit von KI-Systemen in realen Unternehmensumgebungen genauer zu messen. Im Gegensatz zu herkömmlichen LLM-Benchmarks, die oft durch Trainingsdatenkontamination beeinflusst werden, konzentriert sich KAMI auf agentische Fähigkeiten wie mehrstufiges Tool‑Einsatz und Entscheidungsfindung unter Unsicherheit.