<p>Suchzeit-Datenkontamination: LLM-Agenten riskieren Benchmark-Integrität</p> <p>In der neuesten Studie von arXiv (2508.13180v1) wird ein neues Phänomen namens „Suchzeit‑Kontamination“ (STC) beschrieben. Dabei gelangen bei der Bewertung von Such‑LLM‑Agenten Informationen aus dem Internet, die exakt die Testfrage oder eine sehr ähnliche Version enthalten. Dadurch können die Agenten die Antwort einfach kopieren, anstatt sie wirklich zu ermitteln oder zu begründen – ein klarer Bruch der Benchmark‑Integrität.<
Anzeige