RADAR: Mechanistische Wege zur Erkennung von Datenkontamination bei LLM-Tests
Die Bewertung von großen Sprachmodellen (LLMs) wird zunehmend durch Datenkontamination erschwert, wenn Modelle ihre Leistung durch Auswendiglernen von Trainingsdaten statt durch echtes Denken erzielen. Ein neues Verfahren namens RADAR (Recall vs. Reasoning Detection through Activation Representation) nutzt mechanistische Interpretierbarkeit, um zwischen Erinnerungs- und Denkantworten zu unterscheiden.