Neues Framework zur reproduzierbaren Bewertung logischer Reasoning-Agenten
Ein neu entwickeltes Bewertungsframework ermöglicht die systematische und nachvollziehbare Prüfung von logischen Reasoning-Agenten. Es legt besonderen Wert darauf, dass die Bewertung selbst reproduzierbar, auditierbar und robust gegenüber Ausführungsfehlern ist.
Im Zentrum steht ein sogenannter Assessor-Agent, der Aufgaben stellt, Ausführungsbudgets festlegt, die Ergebnisse auswertet und strukturiert Fehlerkategorien dokumentiert. Der zu testende Agent muss lediglich eine standardisierte Agent-zu-Agent-Schnittstelle bereitstellen, wodurch die Integration in verschiedene Umgebungen erleichtert wird.
Als Beispiel wurde ein Auto‑Formalisation-Agent für die erste‑Ordnung-Logik (FOL) evaluiert. Der Agent wandelt natürliche Sprachvoraussetzungen und Schlussfolgerungen in ausführbare Z3Py‑Programme um und nutzt SMT‑Solver, um die logische Inferenz zu prüfen. Die Bewertung erfolgte auf einer bereinigten FOLIO‑Validierungsmenge.
Die Ergebnisse sind beeindruckend: Der Auto‑Formalisation-Agent erreichte unter dem Assessor-Protokoll eine Genauigkeit von 86,70 %, was deutlich über dem 73,89 % des Chain‑of‑Thought‑Baselines liegt. Damit demonstriert das Framework seine Leistungsfähigkeit und die Vorteile einer strukturierten, automatisierten Bewertung.