KI News. Verstehen, was wichtig wird.

Suche Anmelden

Suche

Finde Modelle, Firmen und Themen

Suche im News-Archiv nach Themen, die du dauerhaft verfolgen willst.

Ergebnisse für “Benchmark-Framework”

Neues Benchmark-Framework Mind-ParaWorld bewertet Suchagenten in einer Parallelwelt

Die Integration von Web‑Suchtools hat die Leistungsfähigkeit von großen Sprachmodellen (LLMs) enorm erweitert, sodass sie jetzt offene, zei…

arXiv – cs.AI 06.03.2026 05:00

TraderBench: Wie robust sind KI-Agenten in feindlichen Kapitalmärkten?<br/><p>Die Bewertung von KI-Agenten im Finanzbereich steht vor zwei zentralen Problemen: Statische Benchmarks erfordern teure Expertenannotation und vernachlässigen gleichzeitig die dynamische Entscheidungsfindung, die im echten Handel entscheidend ist. Gleichzeitig führen LLM-basierte Richter zu unkontrollierter Varianz bei domänenspezifischen Aufgaben.</p><p>Mit TraderBench wird diese Lücke geschlossen. Das neue Benchmark-Framework kom

arXiv – cs.AI 03.03.2026 05:00

FlexMS: Flexibles Benchmark-Framework für Deep‑Learning‑Massenspektrometrie

Ein neuer Beitrag auf arXiv (2602.22822v1) präsentiert FlexMS, ein flexibles Benchmark‑Framework, das die Bewertung von Deep‑Learning‑Model…

arXiv – cs.AI 27.02.2026 05:00

LogicGraph: Benchmark für Mehrweg‑logisches Denken mit neuro‑symbolischer Analyse

In der Welt der großen Sprachmodelle (LLMs) liegt der Fokus bislang vor allem auf konvergenter Logik: Modelle sollen einen einzigen, korrek…

arXiv – cs.AI 25.02.2026 05:00

RooflineBench: Benchmark-Framework für On-Device LLMs mittels Roofline-Analyse

Die zunehmende Verlagerung von KI-Anwendungen auf lokale Geräte, insbesondere durch Small Language Models (SLMs), hat die Notwendigkeit für…

arXiv – cs.LG 13.02.2026 05:00

<p>Bench4HLS: Revolutionäres Benchmark-Framework für LLM-gestützte HLS-Entwicklung</p> <p>In den vergangenen zwei Jahren haben große Sprachmodelle (LLMs) beeindruckende Fortschritte bei der Codegenerierung erzielt – von einfachen Skripten bis hin zu komplexen Hardwaredesigns auf Register-Transfer-Ebene (RTL). Im Bereich der High-Level Synthesis (HLS) ist die Nutzung von LLMs zwar noch nicht so weit verbreitet, doch die Zahl der HLS‑bezogenen Studien hat sich in den letzten sechs Monaten von einem Verhältnis

arXiv – cs.AI 29.01.2026 05:00

HAROOD: Benchmark für Out-of-Distribution-Generalisierung in sensorbasiertem HAR

Die neue Studie „HAROOD“ liefert ein umfassendes Benchmark-Framework, um die Robustheit von sensorbasierten Human-Activity-Recognition‑Mode…

arXiv – cs.AI 12.12.2025 05:00

Neues Benchmark für lange Kontexte: Effiziente Kernels & verteilte Attention

Ein neues Benchmark-Framework, veröffentlicht auf arXiv (2510.17896v1), bietet Forschern und Entwicklern ein einheitliches Testsystem, um d…

arXiv – cs.LG 22.10.2025 05:00

FairPrep: Neues Benchmark-Framework für faire Vorverarbeitung von Daten

Mit der zunehmenden Integration von maschinellen Lernsystemen in Entscheidungen von hoher Tragweite wächst die Notwendigkeit, algorithmisch…

arXiv – cs.LG 22.08.2025 05:00