Neues Verfahren V-OCBF lernt Sicherheitsfilter aus Offline-Daten

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Ein innovatives Verfahren namens V-OCBF (Value‑Guided Offline Control Barrier Functions) ermöglicht es, Sicherheitsfilter für autonome Systeme ausschließlich aus bereits vorhandenen Demonstrationsdaten zu lernen. Damit wird die Notwendigkeit von Online‑Interaktion oder handgefertigten Barrieren überflüssig.

Traditionelle Methoden zur sicheren Steuerung von Robotern und Fahrzeugen setzen entweder auf Soft‑Constraints in Offline‑RL‑Algorithmen, die keine vollständige Vorhersage von Sicherheitsverletzungen garantieren, oder auf Control‑Barrier‑Functions (CBFs), die meist auf Expertenwissen oder vollständige Dynamikmodelle angewiesen sind. V-OCBF kombiniert die Vorteile beider Ansätze, indem es eine neuronale Barrierefunktion ausschließlich aus Offline‑Beobachtungen ermittelt.

Das Verfahren nutzt einen rekursiven Finite‑Difference‑Update‑Mechanismus, um die Barrierefunktion ohne Kenntnis des Systemmodells zu verbessern. Ein expectile‑basiertes Ziel verhindert, dass die Barriere auf Aktionen außerhalb des Datensatzes angewendet wird, und beschränkt die Aktualisierungen auf das durch die Daten unterstützte Aktionsspektrum. Anschließend wird die erlernte Barriere in einer Quadratischen Programm‑Formulierung (QP) eingesetzt, um in Echtzeit sichere Steuerungen zu generieren.

In mehreren Fallstudien zeigte V-OCBF deutlich weniger Sicherheitsverletzungen als herkömmliche Basismethoden, während die Aufgabenleistung gleichbleibend hoch blieb. Das Ergebnis unterstreicht die Skalierbarkeit des Ansatzes für die Offline‑Synthese von sicherheitskritischen Controllern ohne Online‑Interaktion oder manuelle Barrieren.

Ähnliche Artikel