LEAP: Dynamisches Lernen zur Halluzinationsvermeidung in Sprachmodellen
Halluzinationen in großen Sprachmodellen (LLMs) stellen weiterhin ein zentrales Hindernis für deren sichere Nutzung dar. Traditionelle Ansätze zur Erkennung von Halluzinationen setzen auf fest definierte Prüfstrategien, die stark von der Qualität der Tool‑Calls abhängen. Manche Methoden greifen auf teure, proprietäre Modelle wie GPT‑4 zurück, während andere auf ein Lehrer‑Schüler‑Setup setzen und kleine Open‑Source‑Modelle durch Agent‑Tuning als Detektoren schulen. Diese Verfahren sind jedoch an starre Strategien gebunden und verlieren ihre Wirksamkeit, wenn sich die Ausführungsumgebung dynamisch ändert.
Um dieses Problem zu lösen, präsentiert das neue LEAP‑Framework (Learning to Evaluate and Adaptively Plan) einen innovativen Ansatz. LEAP betrachtet die Halluzinationsdetektion als ein dynamisches Lernproblem: Ein leistungsstarker Lehrer‑Model erzeugt in einem iterativen Lernzyklus Pfade, die bei Ausführungsfehlern die Strategie anpassen. Anschließend wird diese adaptive Planungskompetenz in ein schlankes Schüler‑Model überführt, indem Agent‑Tuning eingesetzt wird.
Der Schlüssel zum Erfolg liegt in der proaktiven Korrektur des Schüler‑Models. Während der Ausführung schlägt es eigenständig Verbesserungen vor, überprüft sie und optimiert seine eigenen Strategien, ohne auf feste Regeln angewiesen zu sein. Dadurch bleibt das Modell flexibel und kann selbstständig auf unerwartete Situationen reagieren, was die Erkennungsrate von Halluzinationen deutlich erhöht.
LEAP demonstriert, dass ein kleines, effizient trainiertes Modell mit dynamischem Lernen und proaktiver Korrektur die Leistungsfähigkeit großer, kostenintensiver Modelle erreichen kann – und das zu deutlich geringeren Kosten. Diese Entwicklung markiert einen bedeutenden Schritt in Richtung sicherer und zuverlässiger KI‑Anwendungen.