Suche nach LLM-as-a-Judge

Automatisierte Konzeptentdeckung deckt versteckte LLM‑Vorlieben auf

In einer wegweisenden Studie wurden Methoden zur automatischen Konzeptentdeckung auf Embedding‑Ebene untersucht, um die Vorlieben von Large…

arXiv – cs.AI 05.03.2026 05:00

Forschung

CollabEval: Mehrere KI-Agenten verbessern die Bewertung von LLMs

Large Language Models (LLMs) haben die Bewertung von KI-generierten Inhalten revolutioniert. Das Konzept „LLM-as-a-Judge“ gewinnt dabei imm…

arXiv – cs.AI 03.03.2026 05:00

Forschung

CARE: LLM-Fehler getrennt von echter Qualität – 26,8 % weniger Fehler

In der Welt der großen Sprachmodelle (LLMs) ist die Bewertung von Texten mit sogenannten „LLM-as-a-judge“-Ensembles zur Standardmethode gew…

arXiv – cs.LG 03.03.2026 05:00

Forschung

Effiziente LLM-Bewertung: Budgetfreundliche, variancengesteuerte Query-Strategie

Ein neues arXiv-Papier (2602.15481v1) präsentiert einen innovativen Ansatz zur Bewertung großer Sprachmodelle. Der sogenannte LLM-as-a-Judg…

arXiv – cs.LG 18.02.2026 05:00

Forschung

Bi-Level Prompt-Optimierung stärkt multimodale LLM-Judges bei Bildbewertungen

Große Sprachmodelle (LLMs) werden zunehmend als automatisierte Richter eingesetzt, um KI-generierte Inhalte zu bewerten. Trotz ihrer beeind…

arXiv – cs.AI 13.02.2026 05:00

Forschung

LLM als Richter: Neue Methode prüft Zuverlässigkeit mit Item Response Theory

In der automatisierten Bewertung von Texten und Entscheidungen kommt der Technik „LLM-as-a-Judge“ immer mehr zum Einsatz. Bisher wurden die…

arXiv – cs.AI 03.02.2026 05:00

Produkt

Amazon Nova bewertet generative KI-Modelle als Schiedsrichter auf SageMaker

Amazon Nova, ein neuer Dienst von Amazon, fungiert als unabhängiger Schiedsrichter für große Sprachmodelle (LLMs) auf der SageMaker-Plattfo…

AWS – Machine Learning Blog 30.01.2026 21:07

Praxis

Automatisierte LLM-Qualitätssicherung mit DeepEval, Retriever & LLM-as-a-Judge

Wir beginnen mit der Einrichtung einer hochleistungsfähigen Evaluationsumgebung, die sich speziell auf die Integration des DeepEval-Framewo…

MarkTechPost 25.01.2026 20:40

Forschung

PRA: KI-Agent simuliert individuelle Datenschutzbedenken wie ein Mensch

Ein neues Forschungsprojekt namens PRA (Privacy Reasoner Agent) zeigt, wie künstliche Intelligenz die Art und Weise nachbilden kann, wie ei…

arXiv – cs.AI 15.01.2026 05:00

Forschung

Project Synapse: Hierarchisches Multi-Agenten-Framework löst Lieferengpässe autonom

Die neueste Veröffentlichung auf arXiv (2601.08156v1) stellt Project Synapse vor – ein innovatives, agentenbasiertes System, das Last-Mile-…

arXiv – cs.AI 14.01.2026 05:00

Forschung

Effiziente Schätzung von LLM-Judges trotz Rauschen

Große Sprachmodelle (LLMs) werden zunehmend als automatische Prüfer für generative KI‑Ausgaben eingesetzt – ein Ansatz, der als „LLM‑als‑Ri…

arXiv – cs.LG 12.01.2026 05:00

Forschung

AdvJudge‑Zero: Kontroll‑Token kippen LLM‑Judges

In modernen Post‑Training‑Pipelines wie RLHF, DPO und RLAIF spielen Reward‑Modelle und LLM‑as‑a‑Judge‑Systeme eine zentrale Rolle. Sie lief…

arXiv – cs.LG 22.12.2025 05:00

Forschung

Neue Messgröße R-EMID erklärt, warum Rollenspiel-Modelle im Einsatz versagen

In einer aktuellen Studie von Forschern auf arXiv wird erklärt, warum Rollenspiel-Modelle (RPMs) in der Praxis oft schlechter abschneiden a…

arXiv – cs.LG 22.12.2025 05:00

Forschung

<h1>LLM-Bewertungen in Kommunikationssystemen: Bias erkannt und reduziert</h1> <p>In einer neuen Veröffentlichung auf arXiv wird untersucht, wie große Sprachmodelle (LLMs) als autonome „Richter“ in Kommunikationssystemen eingesetzt werden und welche Verzerrungen dabei entstehen können. Besonders im Kundenservice von Telekommunikationsanbietern werden LLMs zunehmend genutzt, um die Qualität von Chatbot-Antworten zu bewerten. Doch die Objektivität dieser KI‑Richter ist nicht garantiert, und voreingenommene Be

arXiv – cs.AI 15.10.2025 05:00

Praxis

<p>LLM als Richter: Wann brechen Signale, wann halten sie – was bedeutet Bewertung?</p> <p>Wenn ein Sprachmodell als „Richter“ fungiert und einer Antwort einen Wert zwischen 1 und 5 (oder ein paarweise Ranking) zuweist, misst es nicht einfach „Richtigkeit“. Stattdessen bewertet es, wie gut die Antwort den spezifischen Anforderungen des Projekts entspricht – sei es die Vollständigkeit eines Marketing‑Posts, die Genauigkeit einer technischen Anleitung oder die Relevanz einer juristischen Analyse. Ohne klare,

MarkTechPost 21.09.2025 01:16

Forschung

CALM: Echtzeit-Framework für adaptive Anomalieerkennung in Zeitreihen

Die Erkennung von Anomalien in nichtstationären Zeitreihen ist in Industrie und Forschung von entscheidender Bedeutung, doch klassische Mod…

arXiv – cs.LG 01.09.2025 05:00

Finde Modelle, Firmen und Themen

Automatisierte Konzeptentdeckung deckt versteckte LLM‑Vorlieben auf

CollabEval: Mehrere KI-Agenten verbessern die Bewertung von LLMs

CARE: LLM-Fehler getrennt von echter Qualität – 26,8 % weniger Fehler

Effiziente LLM-Bewertung: Budgetfreundliche, variancengesteuerte Query-Strategie

Bi-Level Prompt-Optimierung stärkt multimodale LLM-Judges bei Bildbewertungen

LLM als Richter: Neue Methode prüft Zuverlässigkeit mit Item Response Theory

Amazon Nova bewertet generative KI-Modelle als Schiedsrichter auf SageMaker

Automatisierte LLM-Qualitätssicherung mit DeepEval, Retriever & LLM-as-a-Judge

PRA: KI-Agent simuliert individuelle Datenschutzbedenken wie ein Mensch

Project Synapse: Hierarchisches Multi-Agenten-Framework löst Lieferengpässe autonom

Effiziente Schätzung von LLM-Judges trotz Rauschen

AdvJudge‑Zero: Kontroll‑Token kippen LLM‑Judges

Neue Messgröße R-EMID erklärt, warum Rollenspiel-Modelle im Einsatz versagen

CALM: Echtzeit-Framework für adaptive Anomalieerkennung in Zeitreihen

🍪 Cookie-Einstellungen

CARE: LLM-Fehler getrennt von echter Qualität – 26,8 % weniger Fehler