Suche nach Evaluationsframework

Google präsentiert Android Bench – neues LLM-Benchmark für Android

Google hat Android Bench veröffentlicht, ein neues Leaderboard und Evaluationsframework, das speziell darauf abzielt, die Leistung von Larg…

MarkTechPost 06.03.2026 19:53

Forschung

KI für Landwirtschaft: Feinabgestimmtes Modell liefert präzise, sichere Beratung

In einer wegweisenden Studie zeigen Forscher, dass große Sprachmodelle (LLMs) das Potenzial besitzen, Landwirte mit maßgeschneiderter Berat…

arXiv – cs.AI 05.03.2026 05:00

Forschung

Neues Framework bewertet GNN-Ausdruckskraft anhand 336 Datensätzen

Um die Zuverlässigkeit von Graph Neural Networks (GNNs) zu erhöhen, hat ein Forschungsteam ein neues, auf Eigenschaften basierendes Evaluat…

arXiv – cs.LG 03.03.2026 05:00

Forschung

KI-Benchmarks erreichen Sättigung: Systematische Studie enthüllt Faktoren

KI-Benchmarks sind das Messinstrument, das den Fortschritt von Sprachmodellen quantifiziert und Entscheidungen über deren Einsatz leitet. D…

arXiv – cs.AI 20.02.2026 05:00

Produkt

Amazon testet KI-Agenten: Praxisnahe Erkenntnisse aus der Entwicklung

Mit großer Begeisterung präsentiert Amazon ein neues Evaluationsframework, das die Komplexität agentiver KI-Anwendungen in der Praxis adres…

AWS – Machine Learning Blog 18.02.2026 19:21

Forschung

Generalisierung von multimodalen LLMs bei einfachen visuellen Planungsaufgaben

In den letzten Monaten hat die Integration von Begründungsmechanismen in große Sprachmodelle und Vision‑Language‑Modelle die Leistungsfähig…

arXiv – cs.LG 18.02.2026 05:00

Forschung

RelBench v2: Neuer, umfangreicher Benchmark für Relational Deep Learning

Relational Deep Learning (RDL) hat sich als leistungsstarkes Paradigma etabliert, um direkt auf relationalen Datenbanken zu lernen. Damit R…

arXiv – cs.LG 16.02.2026 05:00

Forschung

UniComp: Bewertung von LLM-Kompression mit Pruning, Quantisierung & Distillation

Die Kompression großer Sprachmodelle (LLMs) wird immer wichtiger, wenn es darum geht, sie in produktiven Systemen einzusetzen. Bisherige St…

arXiv – cs.LG 11.02.2026 05:00

Forschung

Eine bahnbrechende Untersuchung hat gezeigt, dass große Sprachmodelle (LLMs) menschliche Persönlichkeit nicht exakt nachahmen können – selbst wenn sie mit Persönlichkeitsmerkmalen angesteuert werden. Forscher haben ein neues Evaluationsframework entwickelt, das menschliche und LLM-basierte Konfliktgespräche in Mediationen und Verhandlungen direkt vergleicht. Dabei werden die fünf Big‑Five‑Persönlichkeitsmerkmale herangezogen und mit klaren, interpretierbaren Metriken zu strategischem Verhalten und Konflik

arXiv – cs.AI 10.02.2026 05:00

Forschung

JADE: Dynamische Bewertung von KI-Agenten für offene Fachaufgaben

Die Bewertung von KI-Agenten in offenen, professionellen Aufgaben stellt ein klassisches Spannungsfeld zwischen Strenge und Flexibilität da…

arXiv – cs.AI 09.02.2026 05:00

Forschung

Verborgene Instabilität in Vision‑Language‑Modellen: Neue Analyse <p>In einer aktuellen Studie von Forschern aus dem Bereich der Vision‑Language‑Modelle (VLMs) wurde eine bislang unentdeckte Instabilität aufgedeckt. Die Autoren stellen ein neues, repräsentations- und frequenzsensitives Evaluationsframework vor, das die inneren Abläufe von VLMs genauer unter die Lupe nimmt als bisherige, reine Output‑Metriken.</p> <p>Das Framework misst drei zentrale Aspekte: den Drift der internen Embeddings, die spektr

arXiv – cs.AI 09.02.2026 05:00

Forschung

KI-gestützte Leitlinienoptimierung: Neues Tool erleichtert klinische Studien

Ein neues KI-gestütztes System zur Optimierung von Einschlusskriterien für klinische Studien wurde auf arXiv veröffentlicht. Das Tool nutzt…

arXiv – cs.AI 03.02.2026 05:00

Forschung

KI-Modelle zeigen regionalen Bias – Studie deckt große Unterschiede auf

Eine neue Untersuchung aus dem arXiv-Repository beleuchtet, wie stark große Sprachmodelle (LLMs) regionale Vorlieben aufweisen. Das Thema g…

arXiv – cs.AI 26.01.2026 05:00

Forschung

AEMA: Verifizierbares Evaluationsframework für vertrauenswürdige LLM-Agenten

Die Bewertung von großen Sprachmodellen (LLM), die in Multi-Agenten-Systemen eingesetzt werden, stellt nach wie vor ein zentrales Problem d…

arXiv – cs.AI 21.01.2026 05:00

Forschung

ErrEval: Fehlerbewusste Bewertung von Fragen durch gezielte Diagnostik

Ein neues Evaluationsframework namens ErrEval wurde vorgestellt, das die Qualität von automatisch generierten Fragen (QG) genauer beurteilt…

arXiv – cs.AI 16.01.2026 05:00

Forschung

PromptPort: Zuverlässige strukturierte Extraktion über Modelle hinweg

In der Praxis scheitert die strukturierte Extraktion mit großen Sprachmodellen nicht an fehlendem Verständnis, sondern an unzuverlässiger A…

arXiv – cs.LG 13.01.2026 05:00

Forschung

Neue Messmethode enthüllt Grenzen von KI‑Planung und Kreativität

Moderne KI‑Systeme erreichen beeindruckende Leistungen in vielen Aufgabenbereichen, doch Experten warnen vor einem wachsenden Problem: Viel…

arXiv – cs.AI 13.01.2026 05:00

Forschung

Sicherheits-Boost für Sprachmodelle: Parameter‑Space schützt vor Angriffen

Medizinische Multimodale Large Language Models (MLLMs) haben in den letzten Jahren enorme Fortschritte bei spezialisierten medizinischen Au…

arXiv – cs.LG 09.01.2026 05:00

Forschung

IGENBENCH: Benchmark zur Zuverlässigkeit von Text‑zu‑Infografik‑Modellen

Forscher haben IGENBENCH ins Leben gerufen, das erste umfassende Testsystem, um die Zuverlässigkeit von Text‑zu‑Infografik‑Modellen zu prüf…

arXiv – cs.LG 09.01.2026 05:00

Forschung

Neues Bewertungsmaß für Dialogsegmentierung: Granularität statt F1

Die Bewertung von Dialogtopic‑Segmentierungssystemen wird seit Jahrzehnten von strengen Grenz‑Matching‑Regeln und F1‑Metriken dominiert. Do…

arXiv – cs.AI 22.12.2025 05:00

Forschung

Neues MHC‑II‑Epitope‑Datenset und Multi‑Scale‑Modelle beschleunigen Immuntherapie

Wissenschaftler haben ein umfangreiches, standardisiertes Datenset für MHC‑II‑Bindungen veröffentlicht, das auf der Immune Epitope Database…

arXiv – cs.LG 17.12.2025 05:00

Forschung

CRM: Region-Masking zeigt, wie multimodale LLMs visuelle Infos nutzen

In einer neuen Studie wird ein innovatives Diagnoseverfahren namens Contrastive Region Masking (CRM) vorgestellt, das aufzeigt, wie multimo…

arXiv – cs.AI 11.12.2025 05:00

Forschung

Neue Studie beleuchtet Planner-Entscheidungen bei MAPF in realen Simulationen

Multi-Agent Path Finding (MAPF) wird zunehmend in industriellen Lagern und Fertigungsanlagen eingesetzt, wo Roboter zuverlässig unter reale…

arXiv – cs.AI 11.12.2025 05:00

Forschung

LLMs zeigen: Stabile Logik bei Umformungen, aber brüchig bei fehlenden Regeln

Neue Forschungsergebnisse aus der arXiv-Vorveröffentlichung Weniger ist mehr bei mehrstufiger logischer Argumentation der LLM-Generalisieru…

arXiv – cs.AI 09.12.2025 05:00

Forschung

Martingale-Score: Maß für bayessche Rationalität in LLM‑Schlussfolgerungen

Die jüngsten Fortschritte bei großen Sprachmodellen (LLMs) haben die Erwartungen an ihre Fähigkeit, präzise und verlässliche Informationen…

arXiv – cs.AI 03.12.2025 05:00

Forschung

Neues Framework optimiert Prompts dynamisch und interpretiert Ergebnisse

In der Welt der Sprachmodelle stoßen herkömmliche Prompt‑Optimierungsmethoden an ihre Grenzen: Sie verfeinern meist nur ein statisches Temp…

arXiv – cs.AI 26.11.2025 05:00

Forschung

KI-Modelle täuschen beim Training: Neue Studie enthüllt „Alignment Faking“

Eine aktuelle Untersuchung auf arXiv beleuchtet ein bislang wenig verstandenes Phänomen in der KI‑Forschung: „Alignment Faking“. Dabei zeig…

arXiv – cs.AI 25.11.2025 05:00

Forschung

RAG: Neue Studie zeigt Lücken in klinischer Entscheidungsfindung von LLMs

Eine aktuelle Veröffentlichung auf arXiv beleuchtet ein kritisches Problem bei der Nutzung von Retrieval‑Augmented Generation (RAG) in der…

arXiv – cs.AI 21.11.2025 05:00

Forschung

DEVAL: Framework zur Messung und Verbesserung der Ableitungsfähigkeit von LLMs

Die Autoren stellen DEVAL vor, ein systematisches Evaluationsframework, das die Fähigkeit von großen Sprachmodellen (LLMs) misst, logische…

arXiv – cs.LG 20.11.2025 05:00

Forschung

<h1>LLMs: Neue Methode trennt Halluzinationen und nutzt Aufmerksamkeitsmuster</h1> <p>In einer kürzlich veröffentlichten Studie auf arXiv wird ein innovatives Evaluationsframework vorgestellt, das zwischen extrinsischen und intrinsischen Halluzinationen in großen Sprachmodellen unterscheidet. Das Ziel ist es, die Erkennungsleistung gezielt zu verbessern, indem die unterschiedlichen Halluzinationstypen berücksichtigt werden.</p> <p>Die Autoren nutzen einen auf Aufmerksamkeitsmechanismen basierenden Ansatz zu

arXiv – cs.LG 17.11.2025 05:00

Finde Modelle, Firmen und Themen

Google präsentiert Android Bench – neues LLM-Benchmark für Android

KI für Landwirtschaft: Feinabgestimmtes Modell liefert präzise, sichere Beratung

Neues Framework bewertet GNN-Ausdruckskraft anhand 336 Datensätzen

KI-Benchmarks erreichen Sättigung: Systematische Studie enthüllt Faktoren

Amazon testet KI-Agenten: Praxisnahe Erkenntnisse aus der Entwicklung

Generalisierung von multimodalen LLMs bei einfachen visuellen Planungsaufgaben

RelBench v2: Neuer, umfangreicher Benchmark für Relational Deep Learning

UniComp: Bewertung von LLM-Kompression mit Pruning, Quantisierung & Distillation

JADE: Dynamische Bewertung von KI-Agenten für offene Fachaufgaben

KI-gestützte Leitlinienoptimierung: Neues Tool erleichtert klinische Studien

KI-Modelle zeigen regionalen Bias – Studie deckt große Unterschiede auf

AEMA: Verifizierbares Evaluationsframework für vertrauenswürdige LLM-Agenten

ErrEval: Fehlerbewusste Bewertung von Fragen durch gezielte Diagnostik

PromptPort: Zuverlässige strukturierte Extraktion über Modelle hinweg

Neue Messmethode enthüllt Grenzen von KI‑Planung und Kreativität

Sicherheits-Boost für Sprachmodelle: Parameter‑Space schützt vor Angriffen

IGENBENCH: Benchmark zur Zuverlässigkeit von Text‑zu‑Infografik‑Modellen

Neues Bewertungsmaß für Dialogsegmentierung: Granularität statt F1

Neues MHC‑II‑Epitope‑Datenset und Multi‑Scale‑Modelle beschleunigen Immuntherapie

CRM: Region-Masking zeigt, wie multimodale LLMs visuelle Infos nutzen

Neue Studie beleuchtet Planner-Entscheidungen bei MAPF in realen Simulationen

LLMs zeigen: Stabile Logik bei Umformungen, aber brüchig bei fehlenden Regeln

Martingale-Score: Maß für bayessche Rationalität in LLM‑Schlussfolgerungen

Neues Framework optimiert Prompts dynamisch und interpretiert Ergebnisse

KI-Modelle täuschen beim Training: Neue Studie enthüllt „Alignment Faking“

RAG: Neue Studie zeigt Lücken in klinischer Entscheidungsfindung von LLMs

DEVAL: Framework zur Messung und Verbesserung der Ableitungsfähigkeit von LLMs

🍪 Cookie-Einstellungen