Neues Verfahren verbessert LLM-Logik durch latentes Contrastive RL Large Language Models (LLMs) glänzen bei der Erzeugung von Texten, doch bei komplexen Mehrschritt‑Aufgaben bleiben sie oft bei statistischer Anpassung statt systematischer Logik. Um dieses Problem anzugehen, setzt die neue Methode DeepLatent Reasoning (DLR) auf ein latentes, bidirektionales Contrastive Reinforcement Learning. arXiv – cs.LG 27.01.2026 05:00
RL‑gestützte Agenten verbessern sich selbst mit einer Skill‑Bibliothek In einer neuen Studie von arXiv (2512.17102v1) wird gezeigt, wie Reinforcement‑Learning (RL) Agenten, die auf großen Sprachmodellen (LLM) basieren, ihre Fähigkeiten kontinuierlich erweitern können. Der Ansatz nutzt eine Skill‑Bibliothek, in der Agenten neue Fertigkeiten lernen, prüfen und einsetzen können, anstatt sich ausschließlich auf LLM‑Prompting zu verlassen. arXiv – cs.AI 22.12.2025 05:00
rSIM: LLMs durch Verstärkte Strategieeinführung zu leistungsstarken Denkmaschinen Ein neues Verfahren namens rSIM (reinforced strategy injection mechanism) ermöglicht es großen Sprachmodellen, ihre Denkfähigkeiten drastisch zu verbessern. Durch die Kombination eines kleinen Planers mit einem LLM wird die Kette der Gedanken (chain of thoughts) gezielt mit Strategien wie Selbstreflexion und tiefem Denken angereichert. arXiv – cs.AI 10.12.2025 05:00
Neues Tool zur Patentclaims-Optimierung: Tree-of-Claims nutzt Multi-Agenten und MCTS Die Optimierung von Patentclaims ist ein entscheidender, aber komplexer Prozess, bei dem ein feines Gleichgewicht zwischen maximaler Neuheit und rechtlichem Schutzumfang gefunden werden muss. Traditionell erfordert das manuelle Ausarbeiten von Claims hohe Arbeitskosten, lange Zeiträume und führt oft zu inkonsistenten Ergebnissen. Auch herkömmliche Large Language Models (LLMs) fehlen häufig die strukturierte, iterative Denkweise, die für präzise Claim‑Verfeinerungen nötig ist. arXiv – cs.LG 24.11.2025 05:00
ProRe: Proaktives Belohnungssystem steigert GUI-Agenten um bis zu 22,4 % In der Forschung zu großen Sprachmodellen (LLMs) spielt die Belohnung eine zentrale Rolle für deren Bewertung und Training. Traditionelle regelbasierte oder modellbasierte Ansätze stoßen jedoch bei GUI-Agenten an ihre Grenzen, weil dort häufig keine echten Trajektorien oder Datenbanken zur Verfügung stehen. Auch statische, trajektorienbasierte LLM‑als‑Judge-Methoden liefern nur begrenzte Genauigkeit. arXiv – cs.AI 29.09.2025 05:00
RLFactory: Plug-and-Play-Framework stärkt Tool‑Nutzung von LLMs Ein neues Open‑Source-Framework namens RLFactory wurde auf arXiv vorgestellt und verspricht, die Interaktion von großen Sprachmodellen (LLMs) mit externen Tools zu revolutionieren. Durch einen Plug‑and‑Play-Ansatz kann RLFactory sofort in bestehende Systeme integriert werden, ohne dass umfangreiche Anpassungen nötig sind. arXiv – cs.AI 10.09.2025 05:00
Reinforcement Learning überwindet SFT-Platte: Chart‑zu‑Code neu gedacht In der Forschung zu vision‑language Modellen hat sich das Reinforcement Learning (RL) als besonders wirkungsvoll für komplexe Schlussfolgerungen erwiesen. Für Aufgaben, die ein tiefes Verständnis von informationsreichen Bildern erfordern und strukturierte Ausgaben erzeugen müssen – wie die Umwandlung von Diagrammen in Programmcode – bleibt die Anwendung von RL jedoch noch wenig erforscht. arXiv – cs.AI 20.08.2025 05:00