scBench: Benchmark testet KI-Agenten bei Einzelzell‑RNA‑Seq‑Analyse
Die neue Plattform scBench bewertet, wie gut KI‑Agenten komplexe Einzelzell‑RNA‑Sequenzierungsdaten verarbeiten können. Mit 394 prüfbaren Aufgaben, die aus realen Arbeitsabläufen von sechs Sequenzierungsplattformen und sieben Aufgabenkategorien stammen, liefert scBench einen umfassenden Testrahmen für die Analyse von scRNA‑seq‑Datensätzen.
Jede Aufgabe präsentiert einen Datensatz unmittelbar vor einem Analyse‑Schritt und nutzt einen deterministischen Prüfer, der die Wiederherstellung eines zentralen biologischen Ergebnisses bewertet. Auf diese Weise lässt sich die Leistung der Agenten objektiv messen, ohne subjektive Interpretationen.
Die ersten Tests mit acht führenden KI‑Modellen zeigten, dass die Genauigkeit zwischen 29 % und 53 % liegt. Dabei spielen sowohl die Modell‑ und Aufgaben‑Kombination als auch die gewählte Plattform eine entscheidende Rolle. Bei weniger dokumentierten Technologien fallen die Ergebnisse um mehr als 40 Prozentpunkte, was die Bedeutung der Plattformwahl unterstreicht.
scBench ergänzt das bereits existierende SpatialBench, sodass beide Plattformen die beiden wichtigsten Einzelzell‑Modalitäten abdecken. Damit bietet scBench nicht nur ein Messinstrument, sondern auch eine diagnostische Linse, um KI‑Agenten zu entwickeln, die reale scRNA‑seq‑Datensätze zuverlässig und reproduzierbar analysieren können.