Federated Alignment: Neue Methode für heterogene Vision‑Language‑Modelle Vision‑Language‑Modelle (VLMs) versprechen enorme Fortschritte in sensiblen Bereichen wie Medizin und Finanzen. Doch die strengen Datenschutzbestimmungen machen ein zentrales Training unmöglich. Durch Federated Learning (FL) kann das Training dezentralisiert werden, doch die große Vielfalt an Rechenressourcen, Anwendungsfällen und Modellarchitekturen erschwert die Praxis. arXiv – cs.AI 03.02.2026 05:00
ResMAS: Optimierung der Resilienz in LLM-basierten Multi-Agenten-Systemen Large‑Language‑Model‑basierte Multi‑Agenten‑Systeme (LLM‑MAS) haben in den letzten Jahren beeindruckende Leistungen in komplexen Aufgabenbereichen erzielt. Gleichzeitig sind sie, weil sie über mehrere Geräte und Umgebungen verteilt sind, anfällig für Störungen wie Agenten‑Ausfälle oder andere unerwartete Eingriffe. arXiv – cs.AI 09.01.2026 05:00
RoBoN: Mehrere LLMs im Testzeit-Skalieren – Neue Methode steigert Genauigkeit Eine neue Technik namens RoBoN (Routed Online Best‑of‑n) ermöglicht es, mehrere große Sprachmodelle (LLMs) gleichzeitig zu nutzen, um die Genauigkeit von Antworten zu erhöhen. Im Gegensatz zu herkömmlichen Best‑of‑n‑Ansätzen, die nur ein einzelnes Modell einsetzen, routet RoBoN die Generierung von Texten sequentiell durch eine Auswahl von Modellen. Dabei werden die Antworten anhand von Belohnungsmodellen und Übereinstimmungs‑Signalen bewertet, um das nächste Modell zu bestimmen. arXiv – cs.LG 08.12.2025 05:00
Mehrere Agenten erhöhen Robustheit und Transparenz in RLHF Ein brandneuer Ansatz namens CRM (Multi‑Agent Collaborative Reward Model) ersetzt das herkömmliche, einheitliche Belohnungsmodell durch ein koordiniertes Team von Spezialisten. Dieser Ansatz zielt darauf ab, die Robustheit und Interpretierbarkeit von Reinforcement‑Learning‑Human‑Feedback (RLHF) deutlich zu verbessern. arXiv – cs.AI 21.11.2025 05:00
Mehrdimensionale Rubrik-basierte Belohnungsoptimierung für medizinische KI In der medizinischen Praxis könnten große Sprachmodelle (LLMs) eine echte Revolution bringen – doch bislang bleiben ihre Einsatzmöglichkeiten stark eingeschränkt. Die Hauptprobleme liegen in der mangelnden Abstimmung zwischen statischen Prüfungen und den dynamischen Anforderungen klinischer Entscheidungen, der Schwierigkeit, sich an sich wandelnde, mehrquellenbasierte medizinische Standards anzupassen, sowie an der Unfähigkeit herkömmlicher Belohnungsmodelle, die feinen Nuancen medizinischer Qualitätskriterien einzufangen. arXiv – cs.AI 21.11.2025 05:00
KI-Framework verbessert Radiologieberichte durch hierarchisches RL Radiologen verfassen ihre Diagnosen in einem klar strukturierten Ablauf: zunächst werden visuelle Befunde beschrieben, anschließend zusammengefasst und bei kritischen Fällen noch einmal präzise überarbeitet. Traditionelle Systeme zur automatischen Berichtserstellung behandeln die Texte jedoch als flache Sequenzen und vernachlässigen diese hierarchische Organisation, was zu Inkonsistenzen zwischen Beschreibungen und Diagnosen führt. arXiv – cs.AI 14.11.2025 05:00
Selbstentwickelnde Reflexion verbessert multimodale Mathematik-Modelle Ein neues Verfahren namens MathSE verspricht, multimodale große Sprachmodelle (MLLMs) bei komplexen mathematischen Aufgaben deutlich zu stärken. Während aktuelle Modelle bereits beeindruckende Leistungen in Vision‑Language‑Fragen zeigen, stoßen sie bei tiefgreifenden Rechenaufgaben häufig an ihre Grenzen. arXiv – cs.AI 11.11.2025 05:00
Verifizierbare Composite Rewards reduzieren Reward Hacking bei LLMs Neue Forschung aus dem arXiv-Preprint RLVR: Reinforcement Learning from Verifiable Rewards zeigt, dass große Sprachmodelle (LLMs) eigenständig logische Schlüsse ziehen können, ohne direkte Anleitung. In medizinischen Frage‑Antwort‑Anwendungen treten jedoch häufig unerwünschte Verhaltensweisen auf, die als Reward Hacking bezeichnet werden. arXiv – cs.LG 22.09.2025 05:00
Reinforcement Learning stärkt Online-Entscheidungsunterstützung mit Digital Twin Ein brandneues Tool kombiniert Verstärkendes Lernen, einen digitalen Zwilling eines Patienten und die Wirkung von Behandlungen, um klinische Entscheidungen in Echtzeit zu optimieren. Das System startet mit einer aus historischen Daten abgeleiteten, batch‑beschränkten Policy und arbeitet anschließend in einem kontinuierlichen Streaming‑Loop, der Aktionen auswählt, Sicherheitsprüfungen durchführt und Experten nur bei hoher Unsicherheit hinzuzieht. arXiv – cs.AI 26.08.2025 05:00
Neues RL-Framework verbessert emotionale Unterstützung durch LLMs Ein neues Forschungsprojekt präsentiert RLFF‑ESC, ein end‑to‑end‑Framework, das große Sprachmodelle (LLMs) dazu befähigt, langfristig und flexibel emotionale Unterstützung zu bieten. Im Gegensatz zu bisherigen Systemen, die auf vordefinierten Strategien basieren, lernt RLFF‑ESC durch Verstärkungslernen dauerhafte, unterstützende Antwortfähigkeiten. arXiv – cs.AI 19.08.2025 05:00