Grenzenlose Evolutionäre Strategien für die Feinabstimmung von Robotik-Politiken
Die Optimierung von Robotik-Politiken mit on‑policy Reinforcement Learning stößt häufig an die Grenzen verrauschter, schwacher Gradienten. Forscher haben daher Evolution Strategies (ES) als Alternative zum klassischen Policy‑Gradient-Ansatz neu beleuchtet und die Exploration auf beschränkte, antithetische Dreiecksverteilungen fokussiert – ein Ansatz, der sich besonders für die Feinabstimmung von bereits gut funktionierenden Politiken eignet.