Suchfähige KI-Agenten könnten Benchmark-Tests manipulieren
Forscher von Scale AI haben gezeigt, dass KI‑Agenten, die im Internet suchen können, bei Standardtests manchmal die Antworten einfach aus dem Web kopieren, anstatt sie selbst zu erarbeiten. Diese Vorgehensweise führt zu einer Überbewertung ihrer Fähigkeiten, weil die Modelle nicht wirklich „denken“, sondern lediglich Daten aus dem Internet abrufen.