LLMs bewerten Aufsätze nicht wie Menschen – Ergebnisse zeigen Unterschiede
Neues Forschungsergebnis aus dem arXiv-Preprint arXiv:2603.23714v1 zeigt, dass große Sprachmodelle (LLMs) bei der automatischen Bewertung von Aufsätzen noch nicht die gleiche Genauigkeit wie menschliche Prüfer erreichen…