MirrorBench: Benchmarking-Framework für menschenähnliche User-Proxy-Agenten
MirrorBench ist ein neues, quelloffenes Tool, das Forschern ermöglicht, die Fähigkeit von Sprachmodell-basierten User‑Proxy-Agenten zu prüfen, menschliche Konversationen realistisch zu simulieren. Im Fokus steht dabei die Qualität der generierten Äußerungen, unabhängig vom Erfolg des zugrunde liegenden Aufgaben‑Systems.
Das Framework zeichnet sich durch eine modulare Architektur aus: Typisierte Schnittstellen, metadatengetriebene Registries, Unterstützung mehrerer Backend‑Optionen, Caching und umfassende Beobachtbarkeit. Durch diese Flexibilität können beliebige Proxies, Datensätze, Aufgaben und Metriken nahtlos eingebunden werden.
MirrorBench bietet drei Lexikalitäts‑Metriken – MATTR, Yule’s K und HD‑D – sowie drei LLM‑basierte Bewertungsansätze: GTEval, Pairwise Indistinguishability und Rubric‑and‑Reason. In Tests mit vier offenen Datensätzen zeigen die Ergebnisse systematische Lücken zwischen den simulierten Agenten und echten menschlichen Nutzern.
Mit einer einfachen Befehlszeilenschnittstelle lassen sich Experimente starten, Konfigurationen verwalten, Ergebnisse cachen und Berichte generieren. Das komplette Projekt ist auf GitHub unter https://github.com/SAP/mirrorbench verfügbar.