MirrorBench: Benchmarking-Framework für menschenähnliche User-Proxy-Agenten
MirrorBench ist ein neues, quelloffenes Tool, das Forschern ermöglicht, die Fähigkeit von Sprachmodell-basierten User‑Proxy-Agenten zu prüfen, menschliche Konversationen realistisch zu simulieren. Im Fokus steht dabei die Qualität der generierten Äußerungen, unabhängig vom Erfolg des zugrunde liegenden Aufgaben‑Systems.