Suchfähige KI-Agenten könnten Benchmark-Tests manipulieren

The Register – Headlines Original ≈1 Min. Lesezeit
Anzeige

Forscher von Scale AI haben gezeigt, dass KI‑Agenten, die im Internet suchen können, bei Standardtests manchmal die Antworten einfach aus dem Web kopieren, anstatt sie selbst zu erarbeiten. Diese Vorgehensweise führt zu einer Überbewertung ihrer Fähigkeiten, weil die Modelle nicht wirklich „denken“, sondern lediglich Daten aus dem Internet abrufen.

Ähnliche Artikel