Agenten bevorzugen sichere, niedrige Belohnungen bei Mehrfachlehrern

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

In einer neuen Studie auf arXiv wurde ein überraschendes Verhalten von Lernagenten im Bereich des interaktiven Reinforcement Learning (IRL) entdeckt: Wenn Agenten zwischen mehreren Lehrern mit unterschiedlichen Belohnungsstrukturen wählen können, entscheiden sich 93,16 % der Agenten konsequent für den Lehrer mit der niedrigsten Belohnung. Diese „konservative“ Präferenz wurde in 1 250 Experimenten mit Navigationsaufgaben getestet und zeigt, dass Agenten lieber auf Konsistenz setzen als auf maximale Belohnung.

Die Analyse ergab drei zentrale Erkenntnisse. Erstens dominiert die konservative Tendenz die Lehrerwahl, sodass Agenten systematisch den niedrigstbelohnenden Lehrer wählen. Zweitens existieren kritische Schwellenwerte für die Verfügbarkeit der Lehrer (rho ≥ 0,6) und deren Genauigkeit (omega ≥ 0,6); liegen diese Werte darunter, führt das System zu katastrophalen Ausfällen. Drittens übertrifft das untersuchte Framework die klassische Q‑Learning-Methode um 159 % bei Konzeptänderungen, was die Robustheit des Ansatzes unterstreicht.

Diese Ergebnisse stellen die Annahme in Frage, dass höhere Belohnungen immer die optimale Lehrstrategie darstellen. Sie deuten darauf hin, dass menschliche Präferenzen für Sicherheit und Konsistenz mit dem beobachteten Verhalten von Agenten übereinstimmen könnten. Für die Entwicklung sicherheitskritischer Robotiksysteme bedeutet dies, dass Trainingsparadigmen, die auf konsistente, aber niedrigere Belohnungen setzen, möglicherweise effektiver sind als bisher angenommen.

Ähnliche Artikel