HardcoreLogic: Benchmark prüft Logikmodelle mit seltenen Rätselvarianten
Ein neues Forschungsprojekt namens HardcoreLogic stellt große Sprachmodelle (LRMs) vor eine anspruchsvolle Herausforderung: 5.000 Logikrätsel aus zehn verschiedenen Spielen, die systematisch komplexer, ungewöhnlicher und teilweise unlösbar gemacht wurden. Ziel ist es, die Fähigkeit der Modelle zu testen, Regeln flexibel anzuwenden, anstatt sich auf bekannte Muster zu verlassen.