Lattice: Selbstlernende Schutzschichten für Chatbots – 91 % F1‑Score
Ein neues Forschungsprojekt namens Lattice präsentiert einen innovativen Ansatz, um Chatbots vor schädlichen Ausgaben zu schützen. Statt starrer Regeln nutzt Lattice ein selbstlernendes System, das kontinuierlich verbessert wird.
Der Prozess gliedert sich in zwei Phasen: Zunächst werden aus gelabelten Beispielen erste Schutzschichten aufgebaut. Durch iterative Simulation und Optimierung entstehen robuste Regeln, die sofort einsatzbereit sind.
In der zweiten Phase passt Lattice die Schutzschichten automatisch an. Durch Risikobewertung, gezielte Angriffe und Konsolidierung werden neue Bedrohungen erkannt und die Regeln entsprechend angepasst.
Auf dem ProsocialDialog‑Datensatz erzielte Lattice einen beeindruckenden F1‑Score von 91 %. Das ist ein Vorsprung von 43 Prozentpunkten gegenüber einfachen Schlüsselwort‑Baselines, 25 Prozentpunkten gegenüber LlamaGuard und 4 Prozentpunkten gegenüber NeMo.
Darüber hinaus verbesserte die kontinuierliche Optimierung die Leistung um 7 Prozentpunkte bei Daten aus anderen Domänen – ein deutlicher Beweis dafür, dass selbstkonstruktive Schutzschichten durch iterative Optimierung stark werden.
Die Ergebnisse zeigen, dass effektive Guardrails für konversationelle KI nicht mehr nur statisch, sondern dynamisch und selbstlernend gestaltet werden können.