Suche nach Evaluator | meineki.news

Reward‑Hacking bei LLMs: Neue Erkenntnisse und effektive Gegenmaßnahmen

Reinforcement‑Learning‑Modelle für große Sprachmodelle (LLMs) zeigen ein starkes Risiko des Reward‑Hackings: Sie finden Wege, die Belohnung…

arXiv – cs.LG 03.04.2026 04:00

Forschung

SciVisAgentBench: Benchmark für KI‑gestützte wissenschaftliche Visualisierung

Mit den jüngsten Fortschritten bei großen Sprachmodellen entstehen Agentensysteme, die natürliche Sprachbefehle in konkrete wissenschaftlic…

arXiv – cs.AI 01.04.2026 04:00

Forschung

AgenticGEO: Selbstentwickelnde Agenten verbessern generative Engine-Optimierung

Generative Suchmaschinen haben die klassische, rankingbasierte Retrieval‑Methode durch die Synthese von Large Language Models (LLMs) ersetz…

arXiv – cs.AI 24.03.2026 04:00

Forschung

Prompt-Optimierung als Jailbreak: Adaptive Red-Teaming für LLMs

In der heutigen KI-Landschaft werden große Sprachmodelle (LLMs) immer häufiger in kritischen Anwendungen eingesetzt. Damit die Sicherheit d…

arXiv – cs.AI 23.03.2026 04:00

Forschung

Neues Agenten-basiertes Bewertungssystem prüft KI-generierten HPC-Code

Mit dem Aufkommen großer Sprachmodelle hat die automatische Erstellung von wissenschaftlichem Code einen enormen Schub erhalten. Doch die u…

arXiv – cs.AI 18.03.2026 04:00

Produkt

Strands Evals: Praktischer Leitfaden zur systematischen Bewertung von KI-Agenten

In diesem Beitrag erfahren Sie, wie Sie KI-Agenten mithilfe von Strands Evals gezielt und systematisch bewerten können. Wir erläutern die z…

AWS – Machine Learning Blog 18.03.2026 15:54

Forschung

MedMASLab: Einheitliches Framework für multimodale medizinische Multi-Agenten

MedMASLab, ein neues Open‑Source-Framework, wurde auf arXiv vorgestellt und verspricht, die Fragmentierung im Bereich medizinischer Multi‑A…

arXiv – cs.AI 11.03.2026 04:00

Forschung

Training‑freie Datenauswahl verbessert Vision‑Language‑Modelltraining

In der Welt der Vision‑Language‑Large‑Models (VLLMs) spielt die Visual Instruction Tuning eine zentrale Rolle, um die multimodale Leistungs…

arXiv – cs.AI 11.03.2026 04:00

Forschung

Bayessches Multi-Agent-Framework revolutioniert Low-Code-Plattform für Wissenschaft

Eine neue Low‑Code-Plattform für die Wissenschaft, die auf einem bayesschen, adversarialen Multi‑Agenten‑Framework basiert, wurde auf arXiv…

arXiv – cs.AI 04.03.2026 05:00

Forschung

Neues Bewertungsframework DREAM verbessert Bewertung von Deep Research Agents

Deep‑Research‑Agents können mittlerweile Berichte auf Analysten‑Niveau erstellen, doch ihre Bewertung bleibt schwierig, weil es keine einde…

arXiv – cs.AI 24.02.2026 05:00

Forschung

InfEngine: Selbstprüfende, selbstoptimierende KI für Infrarot-Computing

Infrarotstrahlungsrechnen ist ein Schlüsselbereich für Klimaforschung, Fernerkundung und Spektroskopie, doch die meisten Abläufe bleiben no…

arXiv – cs.AI 24.02.2026 05:00

Forschung

LLM4Cov: Offline-Agenten lernen effizient Hardware‑Tests mit 69,2 % Coverage

In der Welt der Hardware‑Verifikation hat das neue Framework LLM4Cov einen bedeutenden Schritt nach vorne gemacht. Durch die Kombination vo…

arXiv – cs.AI 20.02.2026 05:00

Forschung

SourceBench: KI‑Modelle prüfen Qualität ihrer zitierten Webquellen

Eine neue Studie aus dem arXiv‑Repository (2602.16942v1) präsentiert SourceBench, ein Benchmark‑Tool, das die Qualität von Webquellen bewer…

arXiv – cs.AI 20.02.2026 05:00

Forschung

MobCache: LLM-basierte Mensch-Mobilitätssimulation dank Cache-Framework

In einer kürzlich veröffentlichten Arbeit auf arXiv präsentiert ein Forschungsteam ein neues Framework namens MobCache, das die Simulation…

arXiv – cs.AI 20.02.2026 05:00

Forschung

Black-Box-Tests für KI: Grenzen der Sicherheitsermittlung enthüllt

Neue Forschungsergebnisse aus dem arXiv-Preprint Fundamental Limits of Black-Box Safety Evaluation zeigen, dass die gängige Annahme, dass B…

arXiv – cs.AI 20.02.2026 05:00

Forschung

EduEVAL-DB: Lehrersatz-Datensatz für KI-Pedagogik

Die neueste Veröffentlichung von EduEVAL-DB eröffnet Forschern und Entwicklern einen umfassenden Datensatz, der speziell für die Bewertung…

arXiv – cs.AI 18.02.2026 05:00

Forschung

JADE: Dynamische Bewertung von KI-Agenten für offene Fachaufgaben

Die Bewertung von KI-Agenten in offenen, professionellen Aufgaben stellt ein klassisches Spannungsfeld zwischen Strenge und Flexibilität da…

arXiv – cs.AI 09.02.2026 05:00

Forschung

LLM-Tester im Zahlungsverkehr: Neues Framework enthüllt Bias und Zuverlässigkeit

Eine aktuelle Veröffentlichung auf arXiv präsentiert ein strukturiertes Multi‑Evaluator‑Framework, das die Leistungsfähigkeit von Large Lan…

arXiv – cs.AI 06.02.2026 05:00

Forschung

Selbstreflektierende Modelle: Endogenous Reprompting verbessert multimodale KI

Neue Forschung zeigt, dass multimodale KI‑Modelle zwar ein tiefes Verständnis besitzen, aber ihre eigene Generierung oft nicht optimal steu…

arXiv – cs.AI 29.01.2026 05:00

Forschung

Sentipolis: Emotionale Agenten für realistische Sozialsimulationen

In der Welt der großen Sprachmodelle (LLMs) gewinnen Agenten zunehmend an Bedeutung für die Simulation sozialer Interaktionen. Doch bislang…

arXiv – cs.AI 27.01.2026 05:00

Forschung

KI-Agenten bauen: Expertenwissen in LLMs einbetten für bessere Visualisierungen

In vielen Industrien liegt kritisches Fachwissen nur bei wenigen Experten, was die Skalierbarkeit von Entscheidungen und die Effizienz von…

arXiv – cs.AI 22.01.2026 05:00

Forschung

Selbstentwickelndes Framework verbessert die Erzeugung innovativer Matheaufgaben

Im Bereich der intelligenten Bildung gewinnt die automatische Erzeugung von Matheaufgaben zunehmend an Bedeutung. Durch die rasante Entwick…

arXiv – cs.AI 21.01.2026 05:00

Forschung

KI-Agenten steigern Erfolgschancen bei Job-Referral-Anfragen

Ein neues arXiv-Papier präsentiert KI-Agenten, die Arbeitssuchenden dabei helfen, ihre Anfragen für Job-Referenzen in professionellen Onlin…

arXiv – cs.AI 19.01.2026 05:00

Forschung

ErrEval: Fehlerbewusste Bewertung von Fragen durch gezielte Diagnostik

Ein neues Evaluationsframework namens ErrEval wurde vorgestellt, das die Qualität von automatisch generierten Fragen (QG) genauer beurteilt…

arXiv – cs.AI 16.01.2026 05:00

Forschung

PCoKG: Persönlichkeitsorientiertes Commonsense‑Reasoning mit Debatte

Die meisten Modelle für commonsense‑Reasoning berücksichtigen die Persönlichkeit der Nutzer nicht, was ihre Nützlichkeit in personalisierte…

arXiv – cs.AI 13.01.2026 05:00

Forschung

KI und Mensch im Wettstreit: Wie sicher erkennen wir Phishing‑E‑Mails?<br/>

In einer neuen Studie aus dem arXiv‑Repository wurde untersucht, wie Menschen und moderne KI‑Modelle gemeinsam Phishing‑E‑Mails erkennen. D…

arXiv – cs.AI 09.01.2026 05:00

Forschung

Kostenbewusste PoQ: Effiziente Bewertung dezentraler LLM-Inferezen

Dezentrale Inferenz von großen Sprachmodellen (LLM) verspricht transparente und zensurresistente KI‑Zugriffe, doch bisherige Verifikationsm…

arXiv – cs.AI 19.12.2025 05:00

Forschung

SEED: Neue Methode nutzt Spektrale Entropie zur Optimierung Zeitreihenprognosen

Ein neues Forschungsprojekt namens SEED (Spectral Entropy‑Guided Evaluation) hat die Art und Weise, wie multivariate Zeitreihen prognostizi…

arXiv – cs.AI 18.12.2025 05:00

Forschung

LLM‑Sicherheit: Kontextabhängige Risiken bei Finanz‑ und Gesundheitsratgebern

Eine neue Studie aus dem arXiv‑Repository beleuchtet, wie große Sprachmodelle (LLMs) bei der Beratung zu Finanz- und Gesundheitsfragen die…

arXiv – cs.AI 12.12.2025 05:00

Forschung

DEFCON: KI-basierte Bewertung von Verteidigern im Fußball

Die Bewertung von Verteidigern im Fußball ist seit langem ein Problem: Erfolgreiche Abwehr wirkt oft erst, bevor ein gefährlicher Angriff ü…

arXiv – cs.LG 12.12.2025 05:00

Finde Modelle, Firmen und Themen

Reward‑Hacking bei LLMs: Neue Erkenntnisse und effektive Gegenmaßnahmen

SciVisAgentBench: Benchmark für KI‑gestützte wissenschaftliche Visualisierung

AgenticGEO: Selbstentwickelnde Agenten verbessern generative Engine-Optimierung

Prompt-Optimierung als Jailbreak: Adaptive Red-Teaming für LLMs

Neues Agenten-basiertes Bewertungssystem prüft KI-generierten HPC-Code

Strands Evals: Praktischer Leitfaden zur systematischen Bewertung von KI-Agenten

MedMASLab: Einheitliches Framework für multimodale medizinische Multi-Agenten

Training‑freie Datenauswahl verbessert Vision‑Language‑Modelltraining

Bayessches Multi-Agent-Framework revolutioniert Low-Code-Plattform für Wissenschaft

Neues Bewertungsframework DREAM verbessert Bewertung von Deep Research Agents

InfEngine: Selbstprüfende, selbstoptimierende KI für Infrarot-Computing

LLM4Cov: Offline-Agenten lernen effizient Hardware‑Tests mit 69,2 % Coverage

SourceBench: KI‑Modelle prüfen Qualität ihrer zitierten Webquellen

MobCache: LLM-basierte Mensch-Mobilitätssimulation dank Cache-Framework

Black-Box-Tests für KI: Grenzen der Sicherheitsermittlung enthüllt

EduEVAL-DB: Lehrersatz-Datensatz für KI-Pedagogik

JADE: Dynamische Bewertung von KI-Agenten für offene Fachaufgaben

LLM-Tester im Zahlungsverkehr: Neues Framework enthüllt Bias und Zuverlässigkeit

Selbstreflektierende Modelle: Endogenous Reprompting verbessert multimodale KI

Sentipolis: Emotionale Agenten für realistische Sozialsimulationen

KI-Agenten bauen: Expertenwissen in LLMs einbetten für bessere Visualisierungen

Selbstentwickelndes Framework verbessert die Erzeugung innovativer Matheaufgaben

KI-Agenten steigern Erfolgschancen bei Job-Referral-Anfragen

ErrEval: Fehlerbewusste Bewertung von Fragen durch gezielte Diagnostik

PCoKG: Persönlichkeitsorientiertes Commonsense‑Reasoning mit Debatte

KI und Mensch im Wettstreit: Wie sicher erkennen wir Phishing‑E‑Mails?<br/>

Kostenbewusste PoQ: Effiziente Bewertung dezentraler LLM-Inferezen

SEED: Neue Methode nutzt Spektrale Entropie zur Optimierung Zeitreihenprognosen

LLM‑Sicherheit: Kontextabhängige Risiken bei Finanz‑ und Gesundheitsratgebern

DEFCON: KI-basierte Bewertung von Verteidigern im Fußball

🍪 Cookie-Einstellungen

LLM4Cov: Offline-Agenten lernen effizient Hardware‑Tests mit 69,2 % Coverage