Suche nach Benchmarking-Framework

Neues Benchmark für Allzweck-Agenten: Erste Open General Agent Leaderboard

Forscher haben ein neues Benchmarking-Framework vorgestellt, das die Leistungsfähigkeit von Allzweck-Agenten systematisch bewertet. Ziel is…

arXiv – cs.AI 27.02.2026 05:00

Forschung

MirrorBench: Benchmarking-Framework für menschenähnliche User-Proxy-Agenten

MirrorBench ist ein neues, quelloffenes Tool, das Forschern ermöglicht, die Fähigkeit von Sprachmodell-basierten User‑Proxy-Agenten zu prüf…

arXiv – cs.AI 14.01.2026 05:00

Forschung

StarCraft II Battle Arena: Neue Benchmark für Multi-Agenten im Gegner-Modus

In der rasanten Entwicklung von Deep Multi-Agent Reinforcement Learning (MARL) steht die StarCraft Multi-Agent Challenge (SMAC) seit langem…

arXiv – cs.AI 19.12.2025 05:00

Forschung

LLMs im wissenschaftlichen Durchbruch: Neues Benchmark zeigt Stärken und Grenzen

In den letzten Jahren haben große Sprachmodelle (LLMs) einen bemerkenswerten Aufschwung im wissenschaftlichen Forschungsbereich erlebt. Tro…

arXiv – cs.AI 18.12.2025 05:00

Forschung

EEG-Bench: Neues Benchmark für EEG-Foundation-Modelle in der Klinik

In einer wegweisenden Veröffentlichung präsentiert ein internationales Forschungsteam ein einheitliches Benchmarking-Framework, das EEG-bas…

arXiv – cs.AI 11.12.2025 05:00

Forschung

CarBench: Das erste Benchmark für 3D-Aerodynamik von Autos

Mit CarBench eröffnet ein neues Kapitel in der datengetriebenen Fahrzeugentwicklung. Das Projekt stellt das erste umfassende Benchmarking-F…

arXiv – cs.LG 10.12.2025 05:00

Forschung

Neues Benchmark für LLM-Agenten: Blocksworld mit Model Context Protocol

Die Industrieautomation verlangt zunehmend nach flexiblen Steuerungsstrategien, die sich an wechselnde Aufgaben und Umgebungen anpassen kön…

arXiv – cs.AI 04.12.2025 05:00

Forschung

SCALAR: Benchmark für Interaktionssparsamkeit von SAE in kleinen LLMs

Mechanistische Interpretierbarkeit zielt darauf ab, neuronale Netze in verständliche Bausteine zu zerlegen und die Verbindungen zwischen ih…

arXiv – cs.LG 12.11.2025 05:00

Praxis

Entwicklung eines umfassenden Benchmarks für Agenten-gestützte KI in Unternehmen

In einem neuen Tutorial wird ein ganzheitliches Benchmarking-Framework vorgestellt, das verschiedenartige agentenbasierte KI-Systeme auf pr…

MarkTechPost 02.11.2025 03:03

Forschung

Bewertung von datenschutzkonformer Textgenerierung in Fachbereichen

Generative KI birgt enormes Potenzial für hochriskante Felder wie Medizin und Finanzen, doch echte Daten bleiben wegen Datenschutz- und Reg…

arXiv – cs.LG 29.08.2025 05:00

Finde Modelle, Firmen und Themen

Neues Benchmark für Allzweck-Agenten: Erste Open General Agent Leaderboard

MirrorBench: Benchmarking-Framework für menschenähnliche User-Proxy-Agenten

StarCraft II Battle Arena: Neue Benchmark für Multi-Agenten im Gegner-Modus

LLMs im wissenschaftlichen Durchbruch: Neues Benchmark zeigt Stärken und Grenzen

EEG-Bench: Neues Benchmark für EEG-Foundation-Modelle in der Klinik

CarBench: Das erste Benchmark für 3D-Aerodynamik von Autos

Neues Benchmark für LLM-Agenten: Blocksworld mit Model Context Protocol

SCALAR: Benchmark für Interaktionssparsamkeit von SAE in kleinen LLMs

Entwicklung eines umfassenden Benchmarks für Agenten-gestützte KI in Unternehmen

Bewertung von datenschutzkonformer Textgenerierung in Fachbereichen

🍪 Cookie-Einstellungen