Suche nach Evaluationsrahmen

MobilityBench: Benchmark für LLM-basierte Routenplanung in realen Szenarien

In der Mobilitätsforschung hat sich ein neues Paradigma etabliert: Route‑Planning‑Agenten, die auf großen Sprachmodellen (LLMs) basieren, e…

arXiv – cs.AI 27.02.2026 05:00

Forschung

Vergleich von Klassifikatoren: Fallstudie mit PyCM

Die Auswahl des besten Klassifikationsmodells erfordert ein tiefes Verständnis seiner Leistungsfähigkeit. In diesem Beitrag wird die PyCM-B…

arXiv – cs.LG 17.02.2026 05:00

Forschung

Automatisierte Datengenerierung und präzise Bewertung für Web-Agenten-Training

Ein neues Verfahren ermöglicht es, große Mengen hochwertiger Trainingsdaten für Web‑Agenten automatisch zu erzeugen. Dabei liegt der Fokus…

arXiv – cs.AI 16.02.2026 05:00

Forschung

Robustheit von Reasoning-LLMs: Wie stark sind ihre Gedankenketten gegen Störungen?<br/><p>Reasoning-LLMs erzeugen Schritt-für-Schritt-Gedankenketten, die die Leistung bei komplexen Aufgaben steigern und die Transparenz des Denkprozesses erhöhen. Doch wie widerstandsfähig sind diese Ketten, wenn sie gezielt gestört werden? Diese Frage beantwortet die neue Studie, die einen kontrollierten Evaluationsrahmen entwickelt hat, um die eigenen Gedankenketten eines Modells zu festen Zeitpunkten zu perturbieren.</p><p

arXiv – cs.AI 10.02.2026 05:00

Forschung

<h1>LLMs als Lehrassistenten: Framework misst Lehrkompetenz anhand von Lehrplänen</h1> <p>Die neuesten Fortschritte in großen Sprachmodellen (LLMs) lassen darauf schließen, dass sie künftig als Lehrassistenten eingesetzt werden könnten. Doch bislang fehlt ein systematischer Weg, um ihre pädagogische Wirksamkeit zu prüfen. Ein neues, syllabus‑basierter Evaluationsrahmen füllt diese Lücke, indem er die Lernfortschritte von Studierenden nach mehrstufiger Anleitung misst.</p> <p>Der Ansatz beschränkt die „Lehre

arXiv – cs.AI 30.01.2026 05:00

Forschung

RHFL+ trotzt Klassenungleichgewichten in medizinischer Bildgebung

Federated Learning (FL) ermöglicht es, Modelle über verteilte Geräte hinweg zu trainieren, ohne dass sensible Daten das Gerät verlassen. In…

arXiv – cs.LG 13.01.2026 05:00

Forschung

OpenDataArena: Plattform zur Bewertung von Post‑Training‑Daten

OpenDataArena (ODA) ist eine neue, vollständig offene Plattform, die die bislang verborgene Qualität und Vielfalt von Post‑Training‑Datensä…

arXiv – cs.AI 17.12.2025 05:00

Forschung

MoE-LLMs: Gefahr unautorisierter Kompression durch gezieltes Pruning

Modulare Mixture-of-Experts-Architekturen werden immer häufiger in großen Sprachmodellen eingesetzt, weil sie Skalierbarkeit und Effizienz…

arXiv – cs.LG 26.11.2025 05:00

Forschung

TurnBack: LLMs zeigen Schwächen bei Routenumkehr – Benchmark enthüllt Grenzen

In einer neuen Studie wird die Fähigkeit großer Sprachmodelle (LLMs) zur geospatialen Routeninterpretation systematisch untersucht. Das Tea…

arXiv – cs.LG 24.09.2025 05:00

Forschung

Fehler in Web-Agenten-Pipelines erkennen: Feingranulare Analyse liefert neue Erkenntnisse

Web‑Agenten, die auf großen Sprachmodellen basieren, sind in der Lage, komplexe, mehrstufige Aufgaben in dynamischen Webumgebungen selbstst…

arXiv – cs.AI 19.09.2025 05:00

Forschung

KI-gestützte Optimierungsmodellierung: Expertenwissen trifft große Sprachmodelle

Eine neue Veröffentlichung auf arXiv (2508.14410v1) präsentiert einen Durchbruch in der automatisierten Optimierungsmodellierung. Durch den…

arXiv – cs.AI 21.08.2025 05:00

Forschung

LM-Agenten kennen Risiken, handeln aber nicht entsprechend

In einer neuen Studie von arXiv (2508.13465v1) wird gezeigt, dass Sprachmodell‑Agenten zwar ein erstaunliches Potenzial besitzen, reale Auf…

arXiv – cs.AI 20.08.2025 05:00

Forschung

Von Antworten zu Fragen: EQGBench bewertet LLMs bei der Bildung von Lernfragen

Große Sprachmodelle (LLMs) haben bereits beeindruckende Leistungen beim Lösen mathematischer Aufgaben gezeigt. Der nächste Schritt – die ei…

arXiv – cs.AI 15.08.2025 05:00

Finde Modelle, Firmen und Themen

MobilityBench: Benchmark für LLM-basierte Routenplanung in realen Szenarien

Vergleich von Klassifikatoren: Fallstudie mit PyCM

Automatisierte Datengenerierung und präzise Bewertung für Web-Agenten-Training

RHFL+ trotzt Klassenungleichgewichten in medizinischer Bildgebung

OpenDataArena: Plattform zur Bewertung von Post‑Training‑Daten

MoE-LLMs: Gefahr unautorisierter Kompression durch gezieltes Pruning

TurnBack: LLMs zeigen Schwächen bei Routenumkehr – Benchmark enthüllt Grenzen

Fehler in Web-Agenten-Pipelines erkennen: Feingranulare Analyse liefert neue Erkenntnisse

KI-gestützte Optimierungsmodellierung: Expertenwissen trifft große Sprachmodelle

LM-Agenten kennen Risiken, handeln aber nicht entsprechend

Von Antworten zu Fragen: EQGBench bewertet LLMs bei der Bildung von Lernfragen

🍪 Cookie-Einstellungen