Neues Diagnose-Framework steigert Tool-Call-Zuverlässigkeit in Multi-Agent-LLM-Systemen Multi-Agent-LLM-Systeme verändern die Unternehmensautomatisierung, doch bislang fehlt ein systematisches Verfahren, um die Zuverlässigkeit von Tool‑Aufrufen zu messen. Ein neues Diagnose-Framework füllt diese Lücke, indem es Big‑Data‑Analysen nutzt, um die prozedurale Zuverlässigkeit von intelligenten Agenten zu bewerten. arXiv – cs.AI 26.01.2026 05:00
Lokale LLM‑Ensembles verbessern Zero‑Shot‑NER in Portugiesisch In der Welt der Sprachmodelle glänzen große LLMs bei vielen Aufgaben, doch bei der Erkennung benannter Entitäten (NER) bleiben sie besonders bei weniger gut dokumentierten Sprachen wie Portugiesisch hinter den Erwartungen zurück. Obwohl Open‑Weight‑Modelle eine lokale Nutzung ermöglichen, gibt es kein einzelnes Modell, das alle NER‑Aufgaben gleichermaßen meistert. Diese Lücke motiviert die Entwicklung von Ensemble‑Ansätzen. arXiv – cs.LG 12.12.2025 05:00
RP-ReAct: Mehragenten-Ansatz steigert Zuverlässigkeit autonomer Agenten in Unternehmen Autonome Agenten haben in den letzten Jahren große Fortschritte gemacht, doch komplexe Aufgaben in Unternehmensumgebungen bleiben eine Herausforderung. Insbesondere die Notwendigkeit, mehrere Werkzeuge zu koordinieren und unterschiedliche Datenquellen zu verarbeiten, führt zu Instabilität im Ablauf und zu einem schnellen Verbrauch des begrenzten Kontextfensters lokaler Open-Weight-Modelle. arXiv – cs.AI 04.12.2025 05:00
DeepSeek: Von V3 zu V3.2 – Ein Blick auf die Weiterentwicklung DeepSeek hat mit der Veröffentlichung von V3.2 einen bedeutenden Schritt in der Entwicklung seiner Open-Weight-Modelle vollzogen. Das neue Modell baut auf dem bereits erfolgreichen V3 auf und bringt gezielte Optimierungen, die die Leistungsfähigkeit und Effizienz weiter steigern. Sebastian Raschka – Ahead of AI 03.12.2025 12:03
OpenAI testet Open-Weight-Modelle für US-Militär OpenAI arbeitet an der Integration seiner Open-Weight-Modelle in die US-Militärforschung. Die gpt-oss Modelle werden derzeit auf hochsicheren Militärrechnern getestet, um ihre Leistungsfähigkeit in kritischen Anwendungen zu prüfen. Wired – AI (Latest) 13.11.2025 11:00
OpenAI stellt leistungsstarke Open-Weight-Modelle unter Apache 2.0 vor OpenAI hat endlich die seit langem erwarteten Open-Weight-Modelle veröffentlicht. Unter der Open-Source-Lizenz Apache 2.0 stehen zwei Varianten zur Verfügung: ein 120‑Billionen‑Parameter‑Modell und ein 20‑Billionen‑Parameter‑Modell. Simon Willison – Blog 05.08.2025 21:33