Selbstreflektierende Modelle: Endogenous Reprompting verbessert multimodale KI Neue Forschung zeigt, dass multimodale KI‑Modelle zwar ein tiefes Verständnis besitzen, aber ihre eigene Generierung oft nicht optimal steuern. Das Problem, das die Autoren als „kognitives Gap“ bezeichnen, liegt darin, dass die Modelle nicht wissen, wie sie ihre Ausgaben verbessern können. arXiv – cs.AI 29.01.2026 05:00
MathMixup: LLMs verbessern Mathe mit kontrollierter Daten‑Synthese In der Welt der mathematischen Problemlösung setzen große Sprachmodelle (LLMs) zunehmend auf qualitativ hochwertige Trainingsdaten, die klar definierte Schwierigkeitsgrade besitzen. Bisherige Syntheseverfahren liefern jedoch oft nur begrenzte Vielfalt und lassen die Problemstärke nicht präzise steuern, was die Nutzung von Curriculum‑Learning erschwert. arXiv – cs.LG 27.01.2026 05:00
DoGe: Kontextbasiertes Selbstlernen für Vision‑Language‑Reasoning In einer Zeit, in der Vision‑Language‑Modelle (VLMs) durch Reinforcement Learning (RL) beeindruckende Schlussfolgerungen erzielen, stellt die Notwendigkeit großer, qualitativ hochwertiger multimodaler Datensätze ein großes Hindernis dar – besonders in spezialisierten Bereichen wie Chemie, Geowissenschaften oder mathematischer Multimodalität. arXiv – cs.AI 09.12.2025 05:00
Agentisches Deep RL: Curriculum, adaptive Exploration & Meta-UCB-Planung In diesem Tutorial wird ein fortschrittliches agentisches Deep Reinforcement Learning System vorgestellt, das Agenten nicht nur Aktionen beibringt, sondern auch, wie sie ihre eigenen Trainingsstrategien wählen. MarkTechPost 18.11.2025 23:35
Kurvenbasierte Adaptive Rekursion beschleunigt Training von Tiny Recursive Modellen Recursive‑Reasoning‑Modelle erreichen mit iterativer Verfeinerung beeindruckende Ergebnisse bei komplexen Aufgaben und ermöglichen es winzigen Netzwerken, die Leistung großer Sprachmodelle zu erreichen – obwohl sie tausendfach kleiner sind. Trotz dieser Vorteile bleibt das Training rechenintensiv: Frühere Studien berichteten etwa 36 GPU‑Stunden pro Datensatz, was die breite Nutzung stark einschränkt. arXiv – cs.LG 13.11.2025 05:00
Unüberwachtes RL verbessert Denken – aber nur bei starken Modellen In den letzten Jahren haben große Sprachmodelle gezeigt, dass unüberwachtes Reinforcement Learning (RL) die Fähigkeit zum logischen Denken ohne externe Anleitung verbessern kann. Doch bislang ist unklar, ob diese Technik auch bei kleineren Modellen funktioniert, die weniger ausgeprägte Denkfähigkeiten besitzen. arXiv – cs.AI 10.11.2025 05:00
Neues Deep Reinforcement Learning Modell verbessert semantische Erkundung von Agenten Autonome Agenten, die sich in komplexen und unbekannten Umgebungen zurechtfinden sollen, benötigen mehr als nur Grundfunktionen wie Wahrnehmung und Bewegung. Sie brauchen höhere kognitive Fähigkeiten, um ihre Umgebung zu analysieren und gezielte Entscheidungen über Erkundungsstrategien zu treffen. Traditionelle Reinforcement‑Learning‑Ansätze stoßen dabei an ihre Grenzen, weil sie oft nicht effizient zwischen Exploration und semantischem Verständnis balancieren können. arXiv – cs.AI 12.09.2025 05:00
Tiefe des Denkens als Schwierigkeitsindikator: Neue Lernkurve für LLMs Eine neue Studie auf arXiv präsentiert einen innovativen Ansatz für das Curriculum‑Learning bei der Ausbildung großer Sprachmodelle (LLMs). Der Kern der Idee ist simpel: Aufgaben, die für Menschen mehr „Tiefe des Denkens“ erfordern, sollten auch für Modelle schwieriger sein. arXiv – cs.LG 27.08.2025 05:00
CRAFT-GUI: Curriculum‑basierte Agenten verbessern GUI‑Aufgaben um 10 % Mit dem Aufkommen autonomer Agenten, die zunehmend in der Lage sind, grafische Benutzeroberflächen (GUIs) zu verstehen und zu bedienen, entsteht eine neue Ära der automatisierten Aufgabenerfüllung. Reinforcement Learning (RL) hat sich dabei als effektives Mittel erwiesen, die Leistung dieser Agenten in dynamischen, interaktiven GUI‑Umgebungen zu steigern. arXiv – cs.AI 18.08.2025 05:00
STEP: Kontext‑Wissensfusion für Konversations‑Empfehlungen mit Curriculum‑Lernen Konversations‑Empfehlungssysteme (CRS) wollen Nutzerpräferenzen durch natürliche Dialoge erfassen und passende Produkte vorschlagen. Dabei stoßen sie häufig an die Grenzen der semantischen Tiefe und an die Herausforderung, externe Wissensgraphen (KG) sinnvoll in die Dialog‑ und Empfehlungsschleife einzubinden. Traditionelle Ansätze mischen KG‑Informationen direkt mit dem Dialogtext, was bei komplexen semantischen Beziehungen zu Missverständnissen führt und die Nutzererwartungen nicht immer erfüllt. arXiv – cs.AI 15.08.2025 05:00
Curriculum Learning steigert KI-Genauigkeit bei multimodaler Fragebeantwortung Das Team „Dianping‑Trust‑Safety“ hat mit seinem Beitrag zum META CRAG‑MM‑Wettbewerb einen Meilenstein in der multimodalen Frage‑und‑Antwort‑KI gesetzt. Der Wettbewerb fordert die Entwicklung eines Retrieval‑Augmented‑Generation‑Systems, das Bilder, strukturierte Daten und Web‑Suchergebnisse kombiniert, um komplexe Fragen in mehrstufigen Dialogen zu beantworten. arXiv – cs.AI 15.08.2025 05:00