Neuer Spectral‑Kill‑Switch verhindert Fehler in Sprachagenten vor Auftreten
Ein brandneues Verfahren schützt Sprachagenten vor fehlerhaften Zwischenschritten, bevor diese bereits in die endgültige Antwort einfließen. Durch die frühzeitige Erkennung von „Kontamination“ – also inkonsistenten Kontexten, Retrieval‑Fehlern oder gezielten Angriffen – wird die Zuverlässigkeit von mehrstufigen Rechenketten deutlich erhöht.
Sprachmodelle, die komplexe Argumentationsketten erzeugen, sind besonders anfällig für Fehler, die sich bereits in einem einzelnen Zwischenschritt ausbreiten. Traditionelle Prüfungen nach Abschluss der Berechnung sind zu spät, weil die Fehler bereits propagiert wurden. Das neue Diagnosewerkzeug greift hier ein: Es arbeitet ausschließlich im Forward‑Pass, ohne zusätzliche Trainingsschritte, und liefert sofort ein binäres Akzeptanz‑ oder Ablehnungssignal.
Das Verfahren analysiert die Token‑Graphen, die durch die Aufmerksamkeitsmechanismen entstehen, und berechnet zwei spektrale Kennzahlen in frühen Schichten: das Verhältnis der hochfrequenten Energie und die spektrale Entropie. Diese Metriken sind robust, leicht zu berechnen und liefern klare Hinweise auf mögliche Inkonsistenzen.
Die Autoren formalisierten die Signale, zeigten ihre Unveränderlichkeit unter verschiedenen Transformationen und stellten endlichstichprobenbasierte Schätzer mit Unsicherheitsquantifizierung vor. Unter einer zweiregime‑Mischungsannahme mit monotone Likelihood‑Ratio‑Eigenschaft bewiesen sie, dass ein einziger Schwellenwert für das hochfrequente Energieverhältnis Bayes‑optimal ist, um Kontextinkonsistenzen zu erkennen.
In Experimenten zeigte sich das hochfrequente Energieverhältnis bei der Kontextverifikation über mehrere Modellfamilien hinweg eine robuste bimodale Verteilung. Dadurch lassen sich Gating‑Entscheidungen mit einem Overhead von weniger als einer Millisekunde treffen – ein entscheidender Vorteil für Echtzeit‑Anwendungen.
Das System wurde erfolgreich in Retrieval‑Augmented‑Agenten integriert und kann als Inline‑Sicherheitsmonitor eingesetzt werden. Damit wird die Kontamination bereits während der Textverarbeitung erkannt, noch bevor Fehler in die endgültige Argumentationskette gelangen.
Dieses neue Tool markiert einen wichtigen Schritt hin zu sichereren, zuverlässigeren Sprachagenten, die ihre eigenen Zwischenschritte selbstständig überwachen und bei Bedarf sofort korrigieren können.