Forschung
MirrorBench: Benchmarking-Framework für menschenähnliche User-Proxy-Agenten
MirrorBench ist ein neues, quelloffenes Tool, das Forschern ermöglicht, die Fähigkeit von Sprachmodell-basierten User‑Proxy-Agenten zu prüf…
arXiv – cs.AI