Forschung
Omni-MATH-2: Sauberer Datensatz enthüllt Fehler bei LLM-Bewertungen
Die neu veröffentlichte Version des Omni-MATH-Datensatzes, Omni-MATH-2, wurde manuell überarbeitet und enthält nun einen sauberen Teil mit…
arXiv – cs.AI