Suche Anmelden

Forschung arXiv – cs.AI

MirrorBench: Benchmarking-Framework für menschenähnliche User-Proxy-Agenten

14.01.2026 05:00 • ≈1 Min. Lesezeit • Originalquelle

#MirrorBench #User-Proxy-Agenten #Lexikalitätsmetriken #LLM-Bewertung #GitHub

Kernaussagen

Das nimmst du aus dem Beitrag mit

MirrorBench ist ein neues, quelloffenes Tool, das Forschern ermöglicht, die Fähigkeit von Sprachmodell-basierten User‑Proxy-Agenten zu prüfen, menschliche Konversationen…
Im Fokus steht dabei die Qualität der generierten Äußerungen, unabhängig vom Erfolg des zugrunde liegenden Aufgaben‑Systems.
Das Framework zeichnet sich durch eine modulare Architektur aus: Typisierte Schnittstellen, metadatengetriebene Registries, Unterstützung mehrerer Backend‑Optionen, Cach…

MirrorBench ist ein neues, quelloffenes Tool, das Forschern ermöglicht, die Fähigkeit von Sprachmodell-basierten User‑Proxy-Agenten zu prüfen, menschliche Konversationen realistisch zu simulieren. Im Fokus steht dabei die Qualität der generierten Äußerungen, unabhängig vom Erfolg des zugrunde liegenden Aufgaben‑Systems.

Das Framework zeichnet sich durch eine modulare Architektur aus: Typisierte Schnittstellen, metadatengetriebene Registries, Unterstützung mehrerer Backend‑Optionen, Caching und umfassende Beobachtbarkeit. Durch diese Flexibilität können beliebige Proxies, Datensätze, Aufgaben und Metriken nahtlos eingebunden werden.

MirrorBench bietet drei Lexikalitäts‑Metriken – MATTR, Yule’s K und HD‑D – sowie drei LLM‑basierte Bewertungsansätze: GTEval, Pairwise Indistinguishability und Rubric‑and‑Reason. In Tests mit vier offenen Datensätzen zeigen die Ergebnisse systematische Lücken zwischen den simulierten Agenten und echten menschlichen Nutzern.

Mit einer einfachen Befehlszeilenschnittstelle lassen sich Experimente starten, Konfigurationen verwalten, Ergebnisse cachen und Berichte generieren. Das komplette Projekt ist auf GitHub unter https://github.com/SAP/mirrorbench verfügbar.

Einordnen in 60 Sekunden

Welche Linse du auf diese Meldung legen solltest

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

Was veraendert sich praktisch?

Ist das eher Signal, Produkt oder nur kurzfristiger Hype?

Begriffe zum Einordnen

Kontext ohne Glossar-Suche

MirrorBench

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

User-Proxy-Agenten

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Lexikalitätsmetriken

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

arXiv – cs.AI

Diese Quelle setzt den Ausgangspunkt fuer die Meldung. Pruefe immer, ob sie eher Forschung, Produktmarketing oder Praxisperspektive liefert.

Lernpfad

Wenn du nach dieser Meldung weiterlernen willst

Themen-Hub

MirrorBench systematisch verfolgen

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

Archiv

Weitere Beispiele zu MirrorBench

Nutze das Archiv, um Muster, Wiederholungen und Trendlinien innerhalb des Themas zu sehen.

Im Themen-Cluster weiter

Von dieser Meldung direkt in Hub, Analyse und Nachbarthemen

Themen-Hub

MirrorBench

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

0 Signale in 7 Tagen • 1 Artikel im Hub

Hub oeffnen →

Naechste Schritte

Aehnliche Entwicklungen zum Weiterlesen

arXiv – cs.AI

ChipBench: Neuer Benchmark für LLMs im KI‑gestützten Chipdesign

30.01.2026 05:00

VentureBeat – AI

Claude Code kostet bis zu 200 $ pro Monat – Goose bietet dieselbe Leistung kostenlos

19.01.2026 14:00

VentureBeat – AI

Warum Enterprise‑AI‑Coding‑Piloten meist unterdurchschnittlich performen

13.12.2025 20:00

VentureBeat – AI

Karpathy's Wochenend-Hack: LLM Council skizziert fehlende AI-Orchestrierung

26.11.2025 14:00

VentureBeat – AI

GitHub startet Agent HQ: Zentraler Steuerungsplan für KI-Coding-Agenten

28.10.2025 16:10

arXiv – cs.AI

Neues Verfahren steigert logisches Denken von Sprachmodellen

16.01.2026 05:00

Warum das wichtig ist

Relevant fuer Leserinnen und Leser, die KI nicht nur verfolgen, sondern einordnen wollen: Der Beitrag zeigt, was sich bei MirrorBench, User-Proxy-Agenten konkret verschiebt und welche Folgen das fuer Nutzung, Produkte oder Entscheidungen haben kann. Ausgangspunkt ist die Quelle arXiv – cs.AI.

Quellenklarheit

Quelle: arXiv – cs.AI
Original: Zum Ursprungsbeitrag
Website: arXiv – cs.AI

Themenradar

Themen folgen

MirrorBench

User-Proxy-Agenten

Lexikalitätsmetriken

LLM-Bewertung

Morning Briefing

Diese Themen im Briefing verfolgen

Wenn dich genau diese Themen wieder interessieren werden, mach daraus einen festen Morgen-Slot statt einzelner Zufallsklicks.

Briefing mit Fokus konfigurieren →

Welche Linse du auf diese Meldung legen solltest

Kontext ohne Glossar-Suche

Wenn du nach dieser Meldung weiterlernen willst

Von dieser Meldung direkt in Hub, Analyse und Nachbarthemen

Aehnliche Entwicklungen zum Weiterlesen

🍪 Cookie-Einstellungen