ChemLabs revolutioniert chemische Problemlösung: 93,6/100 bei IChO 2025 Benchmark
Die International Chemistry Olympiad (IChO) 2025 liefert nun ein neues, hochqualitatives Benchmark‑Set namens ChemO, das speziell für die Bewertung von KI‑Systemen in der Chemie entwickelt wurde. ChemO kombiniert klassische chemische Aufgaben mit multimodalen Anforderungen, wie dem Zeichnen von Molekülen, und stellt damit ein anspruchsvolles Testfeld dar.
Um die Bewertung automatisiert und gleichzeitig präzise zu gestalten, wurden zwei zentrale Innovationen eingeführt. Assessment‑Equivalent Reformulation (AER) wandelt Aufgaben, die visuelle Ausgaben erfordern, in rechnerfreundliche Formate um. Structured Visual Enhancement (SVE) trennt die visuelle Wahrnehmung eines Modells von seiner chemischen Denkfähigkeit, sodass Fehlerquellen besser diagnostiziert werden können.
Zur Bewältigung dieses Benchmarks präsentiert das Team ChemLabs ein hierarchisches Multi‑Agenten‑Framework. Das System simuliert die Zusammenarbeit menschlicher Experten durch spezialisierte Agenten für Problemdekomposition, Wahrnehmung, chemisches Denken und Qualitätskontrolle. Durch die Kombination von SVE mit diesem Agenten‑Ansatz erzielten die Experimente eine signifikante Leistungssteigerung.
Die beste Konfiguration erreichte einen beeindruckenden Score von 93,6 von 100 Punkten. Dieser Wert übertrifft die geschätzte Schwelle für menschliche Goldmedaillen und setzt damit einen neuen Standard für automatisierte chemische Problemlösung. Das ChemO‑Dataset ist öffentlich zugänglich unter https://huggingface.co/datasets/IDEA-AI4SCI/ChemO.