WorkflowPerturb: Kalibrierte Stresstests für Multi-Agent-Workflows
Mit dem Aufkommen von Sprachmodellen, die komplexe Aufgaben in strukturierte Arbeitsabläufe zerlegen, wird die automatische Bewertung dieser Abläufe immer wichtiger – und gleichzeitig schwieriger. Die meisten bestehende…
- Mit dem Aufkommen von Sprachmodellen, die komplexe Aufgaben in strukturierte Arbeitsabläufe zerlegen, wird die automatische Bewertung dieser Abläufe immer wichtiger – un…
- Die meisten bestehenden Metriken sind nicht kalibriert, sodass ein Score‑Veränderung nicht klar aussagt, wie stark ein Workflow verschlechtert wurde.
- WorkflowPerturb löst dieses Problem, indem es ein kontrolliertes Benchmark‑Set bereitstellt.
Mit dem Aufkommen von Sprachmodellen, die komplexe Aufgaben in strukturierte Arbeitsabläufe zerlegen, wird die automatische Bewertung dieser Abläufe immer wichtiger – und gleichzeitig schwieriger. Die meisten bestehenden Metriken sind nicht kalibriert, sodass ein Score‑Veränderung nicht klar aussagt, wie stark ein Workflow verschlechtert wurde.
WorkflowPerturb löst dieses Problem, indem es ein kontrolliertes Benchmark‑Set bereitstellt. Das Set umfasst 4.973 „goldene“ Arbeitsabläufe und 44.757 gezielt veränderte Varianten. Die Änderungen betreffen drei realistische Szenarien – fehlende Schritte, komprimierte Schritte und Beschreibungsänderungen – jeweils in Schweregraden von 10 %, 30 % und 50 %.
Die Autoren haben mehrere Metrikfamilien getestet und deren Sensitivität sowie Kalibrierung anhand erwarteter Score‑Trajektorien und Residuen analysiert. Die Ergebnisse zeigen systematische Unterschiede zwischen den Metriken und ermöglichen eine schwere‑sensitivitätsbewusste Interpretation der Bewertungsergebnisse.
Der komplette Datensatz wird nach Annahme der Veröffentlichung freigegeben und bietet damit Forschern ein robustes Werkzeug, um die Qualität von Multi‑Agent‑Workflows zuverlässig zu messen.
Welche Linse du auf diese Meldung legen solltest
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.