<p>Large Language Models (LLMs) stoßen häufig an die Grenze ihres „Wissens-Cutoffs“, weil ihre festgelegten Parameter keine neuen Informationen direkt aufnehmen können. Traditionell wird dafür Supervised Fine‑Tuning (SFT) eingesetzt, das zwar Fakten aktualisiert, aber selten die Fähigkeit verbessert, diese neuen Daten in Antworten oder Entscheidungen zu nutzen.</p>
Reinforcement Learning (RL) kann hingegen das nötige Denkvermögen vermitteln, ist jedoch wegen des hohen Rechenaufwands kaum für schnelle Online‑Anpassungen geeignet. Unsere Untersuchungen zeigen, dass die Parameterände…