Suche nach Proprietäre Modelle

LLM-WikiRace: Benchmark für Langzeitplanung und Weltwissen in KI

Mit dem neuen Benchmark LLM-WikiRace wird die Fähigkeit großer Sprachmodelle (LLMs) getestet, komplexe Planungsaufgaben zu lösen und dabei…

arXiv – cs.AI 20.02.2026 05:00

Forschung

TermiGen: Hochpräzise Umgebungen und robuste Trajektorien für Terminal-Agenten

Die neue Pipeline TermiGen löst ein langjähriges Problem bei der Ausführung komplexer Terminalaufgaben durch Open‑Weight‑LLMs. Während bish…

arXiv – cs.AI 10.02.2026 05:00

Forschung

LLMs meistern Mathe‑Benchmarks, aber im Kontext bleiben sie hinterher

Ein neuer Beitrag auf arXiv (2601.23048v1) beleuchtet, warum große Sprachmodelle, die bei klassischen Mathe‑Tests wie AIME und MATH‑500 nah…

arXiv – cs.AI 02.02.2026 05:00

Forschung

DAJ: Neuer LLM‑Judge verbessert Codegenerierung bei Testzeit‑Skalierung

In der Codegenerierung wird die Qualität von Ergebnissen häufig durch Best‑of‑N‑Auswahl verbessert: Mehrere Kandidaten werden vom Basismode…

arXiv – cs.LG 02.02.2026 05:00

Forschung

Neues Diagnose-Framework steigert Tool-Call-Zuverlässigkeit in Multi-Agent-LLM-Systemen

Multi-Agent-LLM-Systeme verändern die Unternehmensautomatisierung, doch bislang fehlt ein systematisches Verfahren, um die Zuverlässigkeit…

arXiv – cs.AI 26.01.2026 05:00

Forschung

AgencyBench: 1M‑Token Benchmark für autonome Agenten in realen Szenarien

Die neue Benchmark „AgencyBench“ setzt neue Maßstäbe für die Bewertung autonomer Agenten. Sie basiert auf 32 praxisnahen Szenarien, die dur…

arXiv – cs.AI 19.01.2026 05:00

Forschung

OS-Oracle: Neues Framework für plattformübergreifende GUI‑Kritikmodelle

Mit der zunehmenden Leistungsfähigkeit von VLM‑basierten Computer‑Using Agents (CUAs) wird die präzise Entscheidungsfindung auf Schritt‑Ebe…

arXiv – cs.AI 19.12.2025 05:00

Forschung

KI-gestützte Langkette: Neues Modell löst komplexe biomolekulare Rätsel

Die Analyse von Biomolekülen erfordert oft mehrere logische Schritte, die über Wechselwirkungen, Signalwege und Stoffwechselprozesse hinweg…

arXiv – cs.AI 12.11.2025 05:00

Forschung

LEAP: Dynamisches Lernen zur Halluzinationsvermeidung in Sprachmodellen

Halluzinationen in großen Sprachmodellen (LLMs) stellen weiterhin ein zentrales Hindernis für deren sichere Nutzung dar. Traditionelle Ansä…

arXiv – cs.AI 11.11.2025 05:00

Forschung

Neuer Jailbreak-Ansatz NINJA nutzt lange, harmlose Kontexte, um LMs zu umgehen

In einer kürzlich veröffentlichten Studie auf arXiv wird ein innovativer Jailbreak-Ansatz namens NINJA vorgestellt, der die Sicherheit mode…

arXiv – cs.AI 10.11.2025 05:00

Forschung

TCIA: Aufgabenorientierte Instruktions-Erweiterung verbessert LLM-Leistung um 8,7 %

Die jüngste Veröffentlichung auf arXiv (2508.20374v1) stellt TCIA vor – eine neue Methode zur Aufgabenorientierten Instruktions-Erweiterung…

arXiv – cs.AI 29.08.2025 05:00

Finde Modelle, Firmen und Themen

LLM-WikiRace: Benchmark für Langzeitplanung und Weltwissen in KI

TermiGen: Hochpräzise Umgebungen und robuste Trajektorien für Terminal-Agenten

LLMs meistern Mathe‑Benchmarks, aber im Kontext bleiben sie hinterher

DAJ: Neuer LLM‑Judge verbessert Codegenerierung bei Testzeit‑Skalierung

Neues Diagnose-Framework steigert Tool-Call-Zuverlässigkeit in Multi-Agent-LLM-Systemen

AgencyBench: 1M‑Token Benchmark für autonome Agenten in realen Szenarien

OS-Oracle: Neues Framework für plattformübergreifende GUI‑Kritikmodelle

KI-gestützte Langkette: Neues Modell löst komplexe biomolekulare Rätsel

LEAP: Dynamisches Lernen zur Halluzinationsvermeidung in Sprachmodellen

Neuer Jailbreak-Ansatz NINJA nutzt lange, harmlose Kontexte, um LMs zu umgehen

TCIA: Aufgabenorientierte Instruktions-Erweiterung verbessert LLM-Leistung um 8,7 %

🍪 Cookie-Einstellungen

TCIA: Aufgabenorientierte Instruktions-Erweiterung verbessert LLM-Leistung um 8,7 %