GeoChallenge: 90.000 neue Geometrie-Aufgaben testen KI-Logik
Ein neues Benchmark-Dataset namens GeoChallenge hat die Welt der KI-gestützten Geometrie auf den Kopf gestellt. Mit 90.000 automatisch generierten Multiple‑Choice-Fragen fordert es große Sprachmodelle (LLMs) dazu heraus, komplexe geometrische Beweise zu führen, die sowohl Textbeschreibungen als auc…