Forschung
ReliabilityBench: Maßstab für Zuverlässigkeit von Agenten im Produktionsumfeld
ReliabilityBench ist ein brandneues Benchmark-Tool, das die Zuverlässigkeit von Large‑Language‑Model‑Agenten unter produktionsähnlichen Bed…
arXiv – cs.AI