Robuste KI-Logik: GASP stärkt Modelle gegen fehlerhafte Eingaben
In der Welt des Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) sind Modelle oft beeindruckend stark, doch ihre Leistung kann bei fehlerhaften Kontexten – etwa durch manipulierte Chain-of-Thoughts oder lei…