Omni-MATH-2: Sauberer Datensatz enthüllt Fehler bei LLM-Bewertungen
Die neu veröffentlichte Version des Omni-MATH-Datensatzes, Omni-MATH-2, wurde manuell überarbeitet und enthält nun einen sauberen Teil mit 4.181 exakt beantworteten Aufgaben sowie einen gekennzeichneten Teil mit 247 Auf…