COWM-Schicht stabilisiert Deep RL durch Clustering-basierte Gewichtorthogonalität
Reinforcement‑Learning‑Agenten haben in den letzten Jahren beeindruckende Leistungen erzielt, doch sie arbeiten meist unter der Annahme, dass die Umgebung stationär ist. In der Praxis sind viele Umgebungen jedoch nicht…