SymPyBench: Dynamisches Benchmark für wissenschaftliches Denken mit Python-Code
Ein neues, umfangreiches Benchmarking-Set namens SymPyBench wurde vorgestellt, das 15.045 physikalische Aufgaben auf Universitätsniveau umfasst. Die Aufgaben sind vollständig parametrisiert, sodass unendlich viele Varianten erzeugt werden können, und jede Aufgabe wird mit einer strukturierten, schrittweisen Begründung sowie ausführbarem Python-Code geliefert, der die korrekte Lösung für jede Parameterwahl berechnet.