Suche nach Judge | meineki.news

Neue Blaupause für kontinuierliche Verbesserung von Multi-Agenten-Einkaufsassistenten

Ein neues arXiv-Papier (2603.03565v1) präsentiert einen praxisnahen Leitfaden zur Bewertung und Optimierung von konversationellen Einkaufsa…

arXiv – cs.AI 05.03.2026 05:00

Forschung

HumanLM: Nutzer simulieren mit Zustandsausrichtung übertrifft Reaktionsnachahmung

In der Welt der großen Sprachmodelle (LLMs) gewinnt die Simulation echter Nutzerantworten immer mehr an Bedeutung. Dabei geht es nicht nur…

arXiv – cs.AI 05.03.2026 05:00

Forschung

Automatisierte Konzeptentdeckung deckt versteckte LLM‑Vorlieben auf

In einer wegweisenden Studie wurden Methoden zur automatischen Konzeptentdeckung auf Embedding‑Ebene untersucht, um die Vorlieben von Large…

arXiv – cs.AI 05.03.2026 05:00

Forschung

MUSE: Plattform für multimodale Sicherheitsbewertung großer Sprachmodelle

Die Sicherheit von großen Sprachmodellen (LLMs) wird bislang überwiegend in Textform geprüft, während multimodale Eingaben wie Audio, Bild…

arXiv – cs.LG 04.03.2026 05:00

Forschung

Multimodale Urteilsmodelle verbessern: neues Benchmark und MCTS‑Datengenerierung

In den letzten Jahren haben multimodale große Sprachmodelle (MLLMs) zunehmend die Rolle von „Richtern“ übernommen, um präzise und konsisten…

arXiv – cs.AI 03.03.2026 05:00

Forschung

CollabEval: Mehrere KI-Agenten verbessern die Bewertung von LLMs

Large Language Models (LLMs) haben die Bewertung von KI-generierten Inhalten revolutioniert. Das Konzept „LLM-as-a-Judge“ gewinnt dabei imm…

arXiv – cs.AI 03.03.2026 05:00

Forschung

CARE: LLM-Fehler getrennt von echter Qualität – 26,8 % weniger Fehler

In der Welt der großen Sprachmodelle (LLMs) ist die Bewertung von Texten mit sogenannten „LLM-as-a-judge“-Ensembles zur Standardmethode gew…

arXiv – cs.LG 03.03.2026 05:00

Forschung

Modulare, erklärbare Rechts‑KI für Indien: Domain‑Partitioniertes Hybrid‑RAG

Die juristische Forschung in Indien muss sich mit langen, heterogenen Dokumenten aus Gesetzen, Verfassungsbestimmungen, Strafkodexen und Pr…

arXiv – cs.AI 02.03.2026 05:00

Forschung

MERaLiON2-Omni: 10B‑Parameter‑Modell für ganzheitliche Wahrnehmung in Südostasien

In einer wegweisenden Veröffentlichung präsentiert das Forschungsteam die erste Version von MERaLiON2-Omni (Alpha), einem 10‑Billionen‑Para…

arXiv – cs.AI 02.03.2026 05:00

Forschung

S2S-System: Kein Mensch im Turing-Test – neue Studie enthüllt Lücken

Eine bahnbrechende Untersuchung hat erstmals einen Turing-Test für Sprach-zu-Sprach-Systeme (S2S) durchgeführt. In der Studie wurden 2 968…

arXiv – cs.AI 02.03.2026 05:00

Forschung

Neues Benchmark DEEPSYNTH prüft LLM-Agenten bei komplexer Informationssynthese

In der Welt der großen Sprachmodelle (LLM) gewinnen Agenten, die Werkzeuge wie Webbrowser, Code-Interpreter und Datenanalyse-Tools einsetze…

arXiv – cs.AI 25.02.2026 05:00

Forschung

Neues Benchmark enthüllt Schwächen von Sprachmodellen unter Druck

In einer wegweisenden Studie wird gezeigt, dass die Bewertung der Ausrichtung von Sprachmodellen nicht mehr auf bloßen Aussagen beruhen dar…

arXiv – cs.AI 25.02.2026 05:00

Forschung

<h1>Indische KI-Modelle: Neuer Benchmark prüft Sicherheitsresistenz in 12 Sprachen</h1> <p>Die Sicherheit großer Sprachmodelle wird bislang fast ausschließlich in Englisch getestet – ein Ansatz, der die Schwachstellen in anderen Sprachen vernachlässigt. Mit dem neuen Benchmark <strong>Indic Jailbreak Robustness (IJR)</strong> wird das geändert. IJR bietet einen „judge‑free“ Test, der 45.216 Angriffs‑Prompts in zwölf indischen und südasiatischen Sprachen abdeckt und sowohl einen JSON‑Track mit vertraglich fe

arXiv – cs.AI 20.02.2026 05:00

Forschung

Effiziente LLM-Bewertung: Budgetfreundliche, variancengesteuerte Query-Strategie

Ein neues arXiv-Papier (2602.15481v1) präsentiert einen innovativen Ansatz zur Bewertung großer Sprachmodelle. Der sogenannte LLM-as-a-Judg…

arXiv – cs.LG 18.02.2026 05:00

Forschung

WAC: Web-Agent mit Weltmodell korrigiert Aktionen und steigert Leistung

WAC, ein neuer Web-Agent, kombiniert ein Weltmodell mit einem Aktionsmodell, um die Fehlerquote bei der Ausführung von Webaufgaben deutlich…

arXiv – cs.AI 18.02.2026 05:00

Forschung

Neuer Online-RL-Webagent erzielt 38 % Erfolg bei WebArena

Wissenschaftler haben einen völlig neuen Webagent entwickelt, der autonom im Internet navigiert und dabei die komplexen, sich ständig verän…

arXiv – cs.AI 17.02.2026 05:00

Forschung

Bi-Level Prompt-Optimierung stärkt multimodale LLM-Judges bei Bildbewertungen

Große Sprachmodelle (LLMs) werden zunehmend als automatisierte Richter eingesetzt, um KI-generierte Inhalte zu bewerten. Trotz ihrer beeind…

arXiv – cs.AI 13.02.2026 05:00

Forschung

Neuro‑Symbolisches System FormalJudge verbessert Agenten‑Überwachung um 16,6 %

In einer kürzlich veröffentlichten Studie der Fraunhofer‑IISB (Institut für Software‑ und Systemtechnik) wurde das neue Framework FormalJud…

arXiv – cs.AI 12.02.2026 05:00

Forschung

LiveMedBench: Kontaminationsfreies, wöchentlich aktualisiertes Med‑Benchmark

Die neue Plattform LiveMedBench setzt neue Maßstäbe für die Bewertung großer Sprachmodelle (LLMs) im medizinischen Bereich. Sie löst zwei z…

arXiv – cs.AI 12.02.2026 05:00

Forschung

Differential Reasoning Learning schließt Logiklücken klinischer Agenten

Eine neue Methode namens Differential Reasoning Learning (DRL) verspricht, die Zuverlässigkeit von KI‑gestützten klinischen Entscheidungsun…

arXiv – cs.AI 11.02.2026 05:00

Forschung

Auditierung von Multi-Agenten-LLM-Denkbäumen übertrifft Mehrheitsabstimmung In der Forschung zu Multi-Agenten-Systemen (MAS) wird die Rechenkraft großer Sprachmodelle (LLMs) häufig durch die Zusammenarbeit mehrerer Agenten erweitert. Dennoch setzen die meisten Ansätze noch immer auf eine einfache Mehrheitsabstimmung, um die einzelnen Agentenausgaben zu aggregieren. Diese Heuristik ignoriert jedoch die eigentliche Beweiskette der einzelnen Denkpfade und ist besonders anfällig, wenn die Agenten zu einer

arXiv – cs.AI 11.02.2026 05:00

Produkt

Amazon Nova: Rubrikbasierter LLM-Judge für KI-Modelle auf SageMaker (Teil 2)

In diesem Beitrag beleuchten wir die neue Rubrik-basierte Bewertungsfunktion von Amazon Nova. Dabei geht es darum, wie ein LLM als „Judge“…

AWS – Machine Learning Blog 06.02.2026 16:29

Forschung

Neue Rubrik-Optimierung steigert LLM-Urteilsgenauigkeit und Belohnungsqualität

In der Welt der großen Sprachmodelle (LLMs) werden Rubriken zunehmend eingesetzt, um Urteilsalgorithmen bei der Bewertung subjektiver, mehr…

arXiv – cs.LG 06.02.2026 05:00

Forschung

VERA‑MH: Zuverlässige KI‑Sicherheitsbewertung für psychologische Chatbots

Immer mehr Menschen greifen auf generative KI‑Chatbots zu, um psychologische Unterstützung zu erhalten. Doch die zentrale Frage bleibt: Sin…

arXiv – cs.AI 06.02.2026 05:00

Aktuell

Anwalt setzt neuen KI-Missbrauchsstandard, Gericht verwirft Klage

Ein Rechtsanwalt hat mit seiner Verwendung von Künstlicher Intelligenz einen neuen Standard für den Missbrauch von KI in juristischen Schri…

Ars Technica – AI 06.02.2026 22:43

Forschung

M$^2$-Miner: Multi-Agent MCTS für mobile GUI-Agenten-Datengewinnung

Graphische Benutzeroberflächen (GUI) sind das Herzstück moderner Mensch-Computer-Interaktion. Damit leistungsfähige GUI-Agenten entstehen…

arXiv – cs.AI 06.02.2026 05:00

Forschung

GOPO: Optimierung von Policies mit Rang-basierten Belohnungen

Die neue Methode GOPO (Group Ordinal Policy Optimization) nutzt bei der Optimierung von KI-Modellen ausschließlich die Rangfolge von Belohn…

arXiv – cs.AI 05.02.2026 05:00

Forschung

LLM als Richter: Neue Methode prüft Zuverlässigkeit mit Item Response Theory

In der automatisierten Bewertung von Texten und Entscheidungen kommt der Technik „LLM-as-a-Judge“ immer mehr zum Einsatz. Bisher wurden die…

arXiv – cs.AI 03.02.2026 05:00

Forschung

JAF: Der neue Judge Agent Forest – KI bewertet gemeinsam statt einzeln

In der neuesten Veröffentlichung auf arXiv (2601.22269v1) wird das Konzept des Judge Agent Forest (JAF) vorgestellt, das die Rolle des Bewe…

arXiv – cs.AI 02.02.2026 05:00

Forschung

DAJ: Neuer LLM‑Judge verbessert Codegenerierung bei Testzeit‑Skalierung

In der Codegenerierung wird die Qualität von Ergebnissen häufig durch Best‑of‑N‑Auswahl verbessert: Mehrere Kandidaten werden vom Basismode…

arXiv – cs.LG 02.02.2026 05:00

Finde Modelle, Firmen und Themen

Neue Blaupause für kontinuierliche Verbesserung von Multi-Agenten-Einkaufsassistenten

HumanLM: Nutzer simulieren mit Zustandsausrichtung übertrifft Reaktionsnachahmung

Automatisierte Konzeptentdeckung deckt versteckte LLM‑Vorlieben auf

MUSE: Plattform für multimodale Sicherheitsbewertung großer Sprachmodelle

Multimodale Urteilsmodelle verbessern: neues Benchmark und MCTS‑Datengenerierung

CollabEval: Mehrere KI-Agenten verbessern die Bewertung von LLMs

CARE: LLM-Fehler getrennt von echter Qualität – 26,8 % weniger Fehler

Modulare, erklärbare Rechts‑KI für Indien: Domain‑Partitioniertes Hybrid‑RAG

MERaLiON2-Omni: 10B‑Parameter‑Modell für ganzheitliche Wahrnehmung in Südostasien

S2S-System: Kein Mensch im Turing-Test – neue Studie enthüllt Lücken

Neues Benchmark DEEPSYNTH prüft LLM-Agenten bei komplexer Informationssynthese

Neues Benchmark enthüllt Schwächen von Sprachmodellen unter Druck

Effiziente LLM-Bewertung: Budgetfreundliche, variancengesteuerte Query-Strategie

WAC: Web-Agent mit Weltmodell korrigiert Aktionen und steigert Leistung

Neuer Online-RL-Webagent erzielt 38 % Erfolg bei WebArena

Bi-Level Prompt-Optimierung stärkt multimodale LLM-Judges bei Bildbewertungen

**Neuro‑Symbolisches System FormalJudge verbessert Agenten‑Überwachung um 16,6 %**

LiveMedBench: Kontaminationsfreies, wöchentlich aktualisiertes Med‑Benchmark

Differential Reasoning Learning schließt Logiklücken klinischer Agenten

Amazon Nova: Rubrikbasierter LLM-Judge für KI-Modelle auf SageMaker (Teil 2)

Neue Rubrik-Optimierung steigert LLM-Urteilsgenauigkeit und Belohnungsqualität

VERA‑MH: Zuverlässige KI‑Sicherheitsbewertung für psychologische Chatbots

Anwalt setzt neuen KI-Missbrauchsstandard, Gericht verwirft Klage

M$^2$-Miner: Multi-Agent MCTS für mobile GUI-Agenten-Datengewinnung

GOPO: Optimierung von Policies mit Rang-basierten Belohnungen

LLM als Richter: Neue Methode prüft Zuverlässigkeit mit Item Response Theory

JAF: Der neue Judge Agent Forest – KI bewertet gemeinsam statt einzeln

DAJ: Neuer LLM‑Judge verbessert Codegenerierung bei Testzeit‑Skalierung

🍪 Cookie-Einstellungen

CARE: LLM-Fehler getrennt von echter Qualität – 26,8 % weniger Fehler

Neuer Online-RL-Webagent erzielt 38 % Erfolg bei WebArena

Neuro‑Symbolisches System FormalJudge verbessert Agenten‑Überwachung um 16,6 %