Suche nach Evaluation | meineki.news

Google präsentiert Android Bench – neues LLM-Benchmark für Android

Google hat Android Bench veröffentlicht, ein neues Leaderboard und Evaluationsframework, das speziell darauf abzielt, die Leistung von Larg…

MarkTechPost 06.03.2026 19:53

Forschung

EchoGuard: KI-Framework erkennt manipulative Kommunikation dank Wissensgraph

Manipulative Kommunikation – von Gaslighting über Schuldzuweisungen bis hin zu emotionaler Zwangsausübung – bleibt für viele Menschen schw…

arXiv – cs.AI 06.03.2026 05:00

Forschung

MOOSEnger: KI-Agent für MOOSE-Umgebung beschleunigt Simulationen

Der neue KI-Agent MOOSEnger richtet sich speziell an Anwender des Multiphysics Object‑Oriented Simulation Environment (MOOSE). Durch einen…

arXiv – cs.AI 06.03.2026 05:00

Forschung

KI-Framework löst Datenschutzprobleme bei Duplikaterkennung im Gesundheitswesen

In Kundenbeziehungsmanagement und Gesundheitsdaten entstehen durch doppelte Einträge erhebliche Probleme: Analysen werden verzerrt, Nutzere…

arXiv – cs.LG 06.03.2026 05:00

Forschung

EVMbench: KI-Agenten testen Smart‑Contract‑Sicherheit

Ein neues arXiv‑Veröffentlichung (2603.04915v1) präsentiert EVMbench, ein umfassendes Testsystem, das die Fähigkeiten von KI-Agenten bei de…

arXiv – cs.LG 06.03.2026 05:00

Forschung

KindSleep: KI-gestützte Diagnose von obstruktiver Schlafapnoe aus Oximetrie

Schlafapnoe betrifft weltweit fast ein Milliarden Menschen und erhöht das Risiko für Herz-Kreislauf-Erkrankungen erheblich. Die klassische…

arXiv – cs.LG 06.03.2026 05:00

Forschung

Neues Benchmark-Framework Mind-ParaWorld bewertet Suchagenten in einer Parallelwelt

Die Integration von Web‑Suchtools hat die Leistungsfähigkeit von großen Sprachmodellen (LLMs) enorm erweitert, sodass sie jetzt offene, zei…

arXiv – cs.AI 06.03.2026 05:00

Forschung

KI für Landwirtschaft: Feinabgestimmtes Modell liefert präzise, sichere Beratung

In einer wegweisenden Studie zeigen Forscher, dass große Sprachmodelle (LLMs) das Potenzial besitzen, Landwirte mit maßgeschneiderter Berat…

arXiv – cs.AI 05.03.2026 05:00

Forschung

<h1>Neues Benchmark M-QUEST bewertet Meme‑Toxizität mit semantischem Ansatz</h1> <p>Internet‑Memes sind ein mächtiges Kommunikationsmittel, doch ihre starke Abhängigkeit von Alltagswissen macht die Erkennung von toxischen Inhalten besonders schwierig. Um diesem Problem zu begegnen, hat ein internationales Forschungsteam ein neues, umfassendes Konzept entwickelt, das die wesentlichen Elemente eines Memes systematisch identifiziert und bewertet.</p> <p>Frühere Studien konzentrierten sich meist auf einzelne As

arXiv – cs.AI 05.03.2026 05:00

Forschung

Neue interaktive Benchmarks: So testen wir KI wirklich<br/><p>Standard-Benchmarks werden zunehmend unzuverlässig, weil sie gesättigt, subjektiv und schlecht generalisierbar sind. Aus diesem Grund stellen die Autoren des arXiv‑Papiers (2603.04737v1) ein neues Evaluationsparadigma vor: Interaktive Benchmarks. Dabei wird die Fähigkeit eines Modells gemessen, aktiv Informationen zu beschaffen und damit seine Intelligenz zu demonstrieren.</p><p>Das Konzept umfasst zwei Hauptbereiche. In „Interactive Proofs“ arbe

arXiv – cs.AI 06.03.2026 05:00

Forschung

Neues Benchmark und ProStream: Effiziente Erinnerung für endlose Dialogströme

In realen Gesprächsabläufen fließen Informationen ununterbrochen weiter, sodass die zugrunde liegende Speicher‑Architektur stets innerhalb…

arXiv – cs.AI 06.03.2026 05:00

Forschung

Neue Blaupause für kontinuierliche Verbesserung von Multi-Agenten-Einkaufsassistenten

Ein neues arXiv-Papier (2603.03565v1) präsentiert einen praxisnahen Leitfaden zur Bewertung und Optimierung von konversationellen Einkaufsa…

arXiv – cs.AI 05.03.2026 05:00

Forschung

Sprachmodelle sabotieren sich: Optimierte Prompts führen zu massivem Leistungsverlust

In einer neuen Studie von Forschern aus dem Bereich der künstlichen Intelligenz wurde gezeigt, dass große Sprachmodelle ihre eigene Leistun…

arXiv – cs.AI 05.03.2026 05:00

Forschung

DEVS-Formalismus ermöglicht KI-generierte, überprüfbare Weltmodelle

Weltmodelle sind entscheidend für Planung und Bewertung von agentenbasierten Systemen. Bisher stehen zwei extreme Ansätze zur Verfügung: ha…

arXiv – cs.AI 05.03.2026 05:00

Praxis

LangWatch liefert Open-Source-Lösung für Evaluierung von KI-Agenten

Mit dem Übergang von einfachen Chat‑Interfaces zu komplexen, mehrstufigen autonomen Agenten steht die KI‑Industrie vor einem entscheidenden…

MarkTechPost 04.03.2026 18:36

Forschung

DIALEVAL: Automatisierte Typentheoretische Bewertung von LLM‑Anweisungen

Die Bewertung, wie gut große Sprachmodelle (LLMs) Befehle ausführen, ist bislang stark von manueller Annotation und einheitlichen Kriterien…

arXiv – cs.AI 05.03.2026 05:00

Forschung

mlx-snn: Spiking Neural Networks jetzt nativ auf Apple Silicon

Mit der neuen Bibliothek mlx-snn wird Spiking Neural Network (SNN) Forschung endlich nativ auf Apple Silicon möglich. Die erste SNN‑Bibliot…

arXiv – cs.LG 05.03.2026 05:00

Forschung

NeuroProlog: Neuromodell kombiniert Symbolik und KI für mathematisches Denken

NeuroProlog ist ein neurosymbolisches System, das mathematische Wortaufgaben in ausführbare Prolog‑Programme übersetzt und damit eine forma…

arXiv – cs.AI 04.03.2026 05:00

Forschung

AgentSelect: Benchmark für narrative Agentenempfehlungen

LLM‑Agenten werden zunehmend zum praktischen Interface für die Automatisierung von Aufgaben. Trotz dieser raschen Verbreitung fehlt bislang…

arXiv – cs.AI 05.03.2026 05:00

Forschung

MedCalc-Bench: Benchmark misst nicht, was erwartet – Open‑Book liefert 85 %

Der bislang populäre MedCalc‑Bench, der die Leistungsfähigkeit von Sprachmodellen bei klinischen Rechenaufgaben misst, liefert laut einer n…

arXiv – cs.LG 04.03.2026 05:00

Forschung

SorryDB: KI-Prover testen echte Lean-Theoreme – neue dynamische Benchmark

Auf der Plattform arXiv wurde die neue Studie „SorryDB“ vorgestellt, die ein ständig aktualisiertes Benchmark für offene Lean-Aufgaben bere…

arXiv – cs.AI 04.03.2026 05:00

Forschung

Neue Bewertungsmethode deckt versteckte Fehler bei KI-Agenten auf

In hochriskanten Einsatzbereichen werden KI‑Agenten, die auf großen Sprachmodellen (LLMs) basieren, immer häufiger eingesetzt. Bisher messe…

arXiv – cs.AI 04.03.2026 05:00

Forschung

MUSE: Plattform für multimodale Sicherheitsbewertung großer Sprachmodelle

Die Sicherheit von großen Sprachmodellen (LLMs) wird bislang überwiegend in Textform geprüft, während multimodale Eingaben wie Audio, Bild…

arXiv – cs.LG 04.03.2026 05:00

Forschung

<h1>Neuer Graph-Transformer-Ansatz priorisiert AD‑Gene präziser</h1> <p>Ein neues multimodales Modell namens NETRA (Node Evaluation through Transformer-based Representation and Attention) verspricht, die Priorisierung von Genen, die mit Alzheimer (AD) in Verbindung stehen, deutlich zu verbessern. Im Gegensatz zu herkömmlichen Netzwerkansätzen, die auf statischen Zentralitätsmaßen beruhen, nutzt NETRA ein auf Attention basierendes Scoring, das die Komplexität biologischer Heterogenität besser erfasst.</p> <p

arXiv – cs.LG 04.03.2026 05:00

Forschung

NeuroCognition‑Benchmark enthüllt Schwächen großer Sprachmodelle

Eine neue Studie aus dem arXiv hat ein neuartiges Benchmarking‑Tool vorgestellt, das die kognitiven Fähigkeiten von großen Sprachmodellen (…

arXiv – cs.AI 04.03.2026 05:00

Aktuell

LLMs: Epistemischer Albtraum – KI schafft falsche Sicherheit

Large Language Models (LLMs) wie GPT‑4 haben die Art und Weise, wie wir Informationen konsumieren, revolutioniert. Doch hinter ihrer beeind…

Gary Marcus – Marcus on AI 03.03.2026 16:24

Forschung

TraceSIR: Mehragenten-Framework für strukturierte Analyse von Agenten-Execution-Traces

Agentenbasierte Systeme kombinieren große Sprachmodelle mit externen Werkzeugen und iterativen Entscheidungsprozessen, um komplexe Aufgaben…

arXiv – cs.AI 03.03.2026 05:00

Forschung

Neues Framework bewertet GNN-Ausdruckskraft anhand 336 Datensätzen

Um die Zuverlässigkeit von Graph Neural Networks (GNNs) zu erhöhen, hat ein Forschungsteam ein neues, auf Eigenschaften basierendes Evaluat…

arXiv – cs.LG 03.03.2026 05:00

Forschung

CARE: LLM-Fehler getrennt von echter Qualität – 26,8 % weniger Fehler

In der Welt der großen Sprachmodelle (LLMs) ist die Bewertung von Texten mit sogenannten „LLM-as-a-judge“-Ensembles zur Standardmethode gew…

arXiv – cs.LG 03.03.2026 05:00

Forschung

Neues Benchmark FEWTRANS setzt neue Maßstäbe für Few-Shot-Transferlernen

Die Forschung im Bereich Few‑Shot‑Transferlernen erhält einen entscheidenden Impuls: Das neue Benchmark‑Set FEWTRANS, vorgestellt auf arXiv…

arXiv – cs.LG 03.03.2026 05:00

Finde Modelle, Firmen und Themen

Google präsentiert Android Bench – neues LLM-Benchmark für Android

EchoGuard: KI-Framework erkennt manipulative Kommunikation dank Wissensgraph

MOOSEnger: KI-Agent für MOOSE-Umgebung beschleunigt Simulationen

KI-Framework löst Datenschutzprobleme bei Duplikaterkennung im Gesundheitswesen

EVMbench: KI-Agenten testen Smart‑Contract‑Sicherheit

KindSleep: KI-gestützte Diagnose von obstruktiver Schlafapnoe aus Oximetrie

Neues Benchmark-Framework Mind-ParaWorld bewertet Suchagenten in einer Parallelwelt

KI für Landwirtschaft: Feinabgestimmtes Modell liefert präzise, sichere Beratung

Neues Benchmark und ProStream: Effiziente Erinnerung für endlose Dialogströme

Neue Blaupause für kontinuierliche Verbesserung von Multi-Agenten-Einkaufsassistenten

Sprachmodelle sabotieren sich: Optimierte Prompts führen zu massivem Leistungsverlust

DEVS-Formalismus ermöglicht KI-generierte, überprüfbare Weltmodelle

LangWatch liefert Open-Source-Lösung für Evaluierung von KI-Agenten

DIALEVAL: Automatisierte Typentheoretische Bewertung von LLM‑Anweisungen

mlx-snn: Spiking Neural Networks jetzt nativ auf Apple Silicon

NeuroProlog: Neuromodell kombiniert Symbolik und KI für mathematisches Denken

AgentSelect: Benchmark für narrative Agentenempfehlungen

MedCalc-Bench: Benchmark misst nicht, was erwartet – Open‑Book liefert 85 %

SorryDB: KI-Prover testen echte Lean-Theoreme – neue dynamische Benchmark

**Neue Bewertungsmethode deckt versteckte Fehler bei KI-Agenten auf**

MUSE: Plattform für multimodale Sicherheitsbewertung großer Sprachmodelle

NeuroCognition‑Benchmark enthüllt Schwächen großer Sprachmodelle

LLMs: Epistemischer Albtraum – KI schafft falsche Sicherheit

TraceSIR: Mehragenten-Framework für strukturierte Analyse von Agenten-Execution-Traces

Neues Framework bewertet GNN-Ausdruckskraft anhand 336 Datensätzen

CARE: LLM-Fehler getrennt von echter Qualität – 26,8 % weniger Fehler

Neues Benchmark FEWTRANS setzt neue Maßstäbe für Few-Shot-Transferlernen

🍪 Cookie-Einstellungen

MedCalc-Bench: Benchmark misst nicht, was erwartet – Open‑Book liefert 85 %

Neue Bewertungsmethode deckt versteckte Fehler bei KI-Agenten auf

CARE: LLM-Fehler getrennt von echter Qualität – 26,8 % weniger Fehler