GLOVE: Globale Prüfer für die Ausrichtung von LLMs an ihre Umgebung
In der Welt der großen Sprachmodelle (LLMs) stellt die Zuverlässigkeit von gespeicherten Erinnerungen ein zentrales Problem dar. Viele aktuelle Ansätze gehen davon aus, dass die Gültigkeit von Erinnerungen entweder durch externe Prüfer oder durch introspektive Reflexion des Modells sichergestellt werden kann. Diese Annahmen versagen jedoch häufig, wenn die Umgebung dynamisch verändert wird. Der neue Rahmen GLOVE (Global Verifier) bietet hier eine innovative Lösung: Er definiert einen relativen Wahrheitswert und prüft aktiv, ob abgerufene Erinnerungen mit aktuellen Beobachtungen übereinstimmen.
GLOVE arbeitet ohne Zugriff auf echte Ground‑Truth-Daten und ohne starke Abhängigkeit von der Selbstreflexion des Modells. Durch gezielte Abfragen erkennt es Inkonsistenzen zwischen dem, was das Modell aus seinem Speicher zieht, und dem, was es gerade beobachtet. Sobald ein Widerspruch festgestellt wird, korrigiert GLOVE die Erinnerung, sodass das Modell stets mit einer konsistenten und aktuellen Wissensbasis arbeitet.
Die Wirksamkeit von GLOVE wurde an einer Vielzahl von Aufgaben getestet – von Web‑Navigation über Planung bis hin zu Steuerungsproblemen. In allen Fällen, auch unter künstlich eingeführten Umweltveränderungen, zeigte sich eine deutliche Steigerung der Erfolgsraten der Agenten. Diese Ergebnisse deuten darauf hin, dass GLOVE einen robusten Weg für kognitive Agenten ebnet, die sich selbstständig weiterentwickeln können.