HardcoreLogic: Benchmark prüft Logikmodelle mit seltenen Rätselvarianten
Ein neues Forschungsprojekt namens HardcoreLogic stellt große Sprachmodelle (LRMs) vor eine anspruchsvolle Herausforderung: 5.000 Logikrätsel aus zehn verschiedenen Spielen, die systematisch komplexer, ungewöhnlicher un…