Soft, Hard und Zielgestaltung: Präferenzen steuern aktive Inferenzagenten

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Aktive Inferenz nutzt die erwartete freie Energie als Zielgröße für Planung und Entscheidungsfindung. Dabei wird der ausnutzende Antrieb – das, was ein Agent erreichen will – als Kullback‑Leibler‑Divergenz zwischen einer variationalen Verteilung und einer Präferenzverteilung modelliert. Diese Präferenzverteilung gibt an, welche Zustände oder Beobachtungen für den Agenten wahrscheinlicher sind und damit sein Ziel in einer Umgebung bestimmen.

In der Literatur wurde bislang kaum untersucht, wie die Präferenzverteilung definiert werden sollte und welche Auswirkungen diese Definition auf Inferenz und Lernen hat. In der vorliegenden Arbeit werden vier mögliche Spezifikationen der Präferenzverteilung betrachtet: harte und weiche Ziele sowie die Einbeziehung oder Nicht‑Einbeziehung von Zwischenzielen (Goal Shaping).

Die vier Agenten, die jeweils eine dieser Präferenzverteilungen nutzen, wurden in einer Grid‑World‑Navigationsaufgabe getestet. Die Ergebnisse zeigen, dass Goal Shaping die beste Gesamtleistung erzielt, weil es die Ausnutzung fördert. Gleichzeitig führt es jedoch zu einer geringeren Erkundung der Übergangsdynamik der Umgebung.

Ähnliche Artikel