rSIM: LLMs durch Verstärkte Strategieeinführung zu leistungsstarken Denkmaschinen
Ein neues Verfahren namens rSIM (reinforced strategy injection mechanism) ermöglicht es großen Sprachmodellen, ihre Denkfähigkeiten drastisch zu verbessern. Durch die Kombination eines kleinen Planers mit einem LLM wird die Kette der Gedanken (chain of thoughts) gezielt mit Strategien wie Selbstreflexion und tiefem Denken angereichert.
Der Planer, der als „Leader Agent“ fungiert, wird gemeinsam mit dem LLM als „Follower Agent“ in einem Multi-Agenten-Reinforcement-Learning-Setup trainiert. Dabei nutzt das System ein einfaches regelbasiertes Belohnungssystem, um die Interaktion zwischen Planner und Modell zu optimieren.
In Experimenten konnte rSIM das Modell Qwen2.5‑0.5B in ein vollwertiges Reasoning Language Model (RLM) verwandeln, das die Leistung des deutlich größeren Qwen2.5‑14B übertrifft. Das Ergebnis zeigt, dass die Strategieeinführung nicht nur die Effizienz steigert, sondern auch die Qualität der Antworten signifikant erhöht.
Ein weiterer Vorteil von rSIM ist die Generalisierbarkeit des Planers. Nach einmaligem Training kann er als Plug‑in in verschiedene LLMs integriert werden, um deren Denkfähigkeiten zu verbessern. Zudem unterstützt der Planner kontinuierliches Lernen über mehrere Aufgaben hinweg, sodass seine Planungsfähigkeiten mit der Zeit weiter wachsen und sich auf breitere Problemstellungen übertragen lassen.