Neues Maß für Gedächtnisverbrauch in Reinforcement Learning
In einer kürzlich veröffentlichten Arbeit auf arXiv wird ein neues, modellunabhängiges Messinstrument namens Temporal Range vorgestellt, das genau angibt, wie stark ein trainiertes Reinforcement-Learning‑Agent vergangene Beobachtungen nutzt. Das Verfahren betrachtet die ersten Ableitungen mehrerer Vektor‑Ausgaben über einen zeitlichen Rahmen hinweg und fasst diese in einem gewichteten Mittelwert der Verzögerung zusammen.
Der Temporal‑Range‑Berechnung nutzt die Rückwärts‑Differenzierung von Jacobian‑Blöcken, die die Sensitivität der Ausgaben gegenüber Eingaben in früheren Zeitschritten messen. In linearen Modellen lässt sich das Konzept durch eine kompakte Menge natürlicher Axiome beschreiben, was die Interpretation erleichtert.
Die Autoren haben die Metrik an einer Reihe von Diagnose‑ und Kontrollaufgaben getestet – darunter POPGym, Flicker/Occlusion und Copy‑k – sowie an verschiedenen Architekturen wie MLPs, RNNs und SSMs. Die Ergebnisse zeigen, dass der Temporal Range in vollständig beobachteten Steuerungsaufgaben klein bleibt, sich proportional zur tatsächlichen Verzögerung in Copy‑k verhält und mit dem minimalen Historienfenster übereinstimmt, das für nahezu optimale Ergebnisse erforderlich ist.
Zusätzlich wurde der Temporal Range für eine kompakte Long Expressive Memory (LEM) Policy berechnet, um die Aufgaben‑abhängige Gedächtnisnutzung als Proxy zu evaluieren. Durch die axiomatische Behandlung, die auf aktuellen Arbeiten zu Bereichsmaßen basiert, wird der Temporal Range zu einem praktischen Werkzeug, um Agenten und Umgebungen hinsichtlich ihrer Speicherabhängigkeit zu vergleichen und die kürzeste ausreichende Kontextlänge zu bestimmen.