LLMs werden selbstrobust: CoIPO steigert Prompt‑Stabilität
Die neuesten Fortschritte bei großen Sprachmodellen (LLMs) zeigen beeindruckende Leistungen in vielen Aufgabenbereichen. Dennoch sind diese Modelle oft empfindlich gegenüber kleinen Änderungen in den Eingabeaufforderungen – ein Problem, das besonders in Anwendungen mit eingeschränkter Offenheit oder strengen Ausgabeformaten auffällt. In der Praxis enthalten Benutzereingaben häufig Fehler oder Unvollständigkeiten, die die Qualität der Antworten beeinträchtigen können.
Frühere Ansätze haben versucht, die Prompt‑Qualität vorab zu verbessern, indem externe Tools oder sogar andere LLMs eingesetzt wurden. Diese Lösungen bringen jedoch zusätzliche Rechenkosten und Unsicherheiten mit sich und berücksichtigen nicht die inhärente Robustheit der Modelle selbst. Die neue Methode CoIPO (Contrastive Learning-based Inverse Direct Preference Optimization) geht einen anderen Weg: Sie minimiert die Diskrepanz zwischen den Logits, die ein Modell bei einer sauberen Prompt‑Version und einer verrauschten Version erzeugt. Durch diesen kontrastiven Lernprozess wird die interne Widerstandsfähigkeit gegen Prompt‑Rauschen gezielt gestärkt.
Um CoIPO zu trainieren, wurde das FLAN‑Datenset erweitert, indem für jede saubere Prompt‑Version eine passende verrauschte Variante erstellt wurde. Zur Bewertung der Wirksamkeit wurde das neue Benchmark‑Set NoisyPromptBench entwickelt, das auf dem bestehenden PromptBench aufbaut und zusätzliche Rauschvarianten enthält. Die Experimente zeigen, dass CoIPO die durchschnittliche Genauigkeit auf NoisyPromptBench deutlich über den aktuellen Stand hinaus verbessert, ohne auf externe Vorverarbeitung angewiesen zu sein.
Diese Arbeit demonstriert, dass die intrinsische Robustheit von LLMs durch gezieltes kontrastives Lernen erheblich gesteigert werden kann. Damit ebnet CoIPO einen vielversprechenden Weg für zuverlässigere Sprachmodelle in realen Anwendungen, bei denen Eingabefehler unvermeidlich sind.