Künstliche Agenten nutzen Weltmodelle, um Patch-Foraging nach MVT zu optimieren

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

In einer neuen Studie zeigen Forscher, dass künstliche Forager, die mit lernenden Weltmodellen ausgestattet sind, automatisch Strategien entwickeln, die dem Marginal Value Theorem (MVT) entsprechen. Das MVT beschreibt, wann ein Tier aus einer ressourcenreichen Zone abwandern sollte, um bessere Alternativen zu finden – ein Konzept, das seit Jahrzehnten in der Verhaltensökologie verwendet wird.

Die Agenten nutzen ein modellbasiertes Verstärkungslernen, bei dem sie eine kompakte, vorhersagende Repräsentation ihrer Umgebung aufbauen. Diese Vorhersagekraft ermöglicht es ihnen, zukünftige Belohnungen zu antizipieren, anstatt ausschließlich auf aktuelle Belohnungen zu reagieren. Das Ergebnis ist ein effizienter Patch‑Leaving‑Verhalten, das sich stark an den beobachteten Mustern biologischer Forager orientiert.

Im Vergleich zu herkömmlichen, modellfreien RL-Agenten zeigen die modellbasierten Systeme deutlich bessere Übereinstimmung mit biologischen Entscheidungsprozessen. Diese Erkenntnis legt nahe, dass Weltmodelle nicht nur die Leistung steigern, sondern auch die Nachvollziehbarkeit und biologisch fundierte Entscheidungsfindung in KI-Systemen fördern können.

Die Arbeit unterstreicht, wie ökologische Prinzipien der Optimalität dazu beitragen können, interpretierbare und adaptive KI zu entwickeln. Durch die Integration von Weltmodellen in Lernalgorithmen eröffnet sich ein vielversprechender Weg, um komplexe, realweltliche Entscheidungsaufgaben zu meistern.

Ähnliche Artikel