RADAR: Mechanistische Wege zur Erkennung von Datenkontamination bei LLM-Tests
Die Bewertung von großen Sprachmodellen (LLMs) wird zunehmend durch Datenkontamination erschwert, wenn Modelle ihre Leistung durch Auswendiglernen von Trainingsdaten statt durch echtes Denken erzielen. Ein neues Verfahr…