Endless Terminals: Skalierbare RL-Umgebungen für Terminal-Agenten
In der Forschung zu selbstverbessernden Agenten stellen Umgebungen häufig die größte Hürde dar. Aktuelle Terminal-Benchmarks wurden primär zur Bewertung entwickelt und bieten nicht die Skalierbarkeit, die für das Traini…