Suche nach Bewertungsrahmen

Neue Bewertungsmethode deckt versteckte Fehler bei KI-Agenten auf

In hochriskanten Einsatzbereichen werden KI‑Agenten, die auf großen Sprachmodellen (LLMs) basieren, immer häufiger eingesetzt. Bisher messe…

arXiv – cs.AI 04.03.2026 05:00

Forschung

Neue Kernel‑Metriken verbessern probabilistische Vorhersagen

Probabilistische Vorhersagen gewinnen in Bereichen wie Finanzen, Epidemiologie und Klimawissenschaft immer mehr an Bedeutung. Doch die gäng…

arXiv – cs.LG 12.02.2026 05:00

Forschung

Neue Rubrik-Optimierung steigert LLM-Urteilsgenauigkeit und Belohnungsqualität

In der Welt der großen Sprachmodelle (LLMs) werden Rubriken zunehmend eingesetzt, um Urteilsalgorithmen bei der Bewertung subjektiver, mehr…

arXiv – cs.LG 06.02.2026 05:00

Forschung

Wie Überzeugung von KI‑Agenten ihre Aufgaben beeinflusst

Moderne KI‑Agenten verbinden zunehmend Gespräche mit eigenständiger Aufgabenausführung – sei es beim Programmieren oder bei Web‑Recherchen…

arXiv – cs.AI 03.02.2026 05:00

Forschung

Bewusstsein? Nicht nötig – Bewusstseinsgrad als Messgröße für KI

In einer Zeit, in der die Debatte um künstliche Intelligenz immer stärker auf Fragen des Bewusstseins und der moralischen Stellung fokussie…

arXiv – cs.AI 22.01.2026 05:00

Forschung

Neues Benchmark MLB bewertet KI-Modelle in der klinischen Praxis

Die rasante Verbreitung von Large Language Models (LLMs) eröffnet enormes Potenzial für die Gesundheitsversorgung, doch die praktische Umse…

arXiv – cs.LG 13.01.2026 05:00

Forschung

Umfassende Analyse des RAG-Stacks: Architektur, Vertrauensrahmen und Praxisleitfaden

Eine neue, systematische Literaturübersicht beleuchtet die Entwicklung von Retrieval-Augmented Generation (RAG)-Systemen von 2018 bis 2025…

arXiv – cs.AI 12.01.2026 05:00

Forschung

KI‑Co‑Piloten in der biomedizinischen Forschung: Neue Bewertungsansätze In den letzten Jahren werden künstliche Intelligenz‑Systeme immer häufiger in der biomedizinischen Forschung eingesetzt. Trotz dieser rasanten Verbreitung zeigen aktuelle Bewertungsrahmen, dass sie die Rolle von KI als echte Forschungspartnerinnen und -partner nicht ausreichend abbilden. Eine schnelle Übersicht aus drei großen Datenbanken und zwei Preprint‑Servern, die die Zeitspanne vom 1. Januar 2018 bis zum 31. Oktober 2025 abde

arXiv – cs.AI 05.12.2025 05:00

Forschung

UpBench: Dynamisches Labor-Markt-Benchmark für KI-Agenten aus realen Upwork-Jobs

Mit UpBench erhält die Forschung ein neues, dynamisches Werkzeug, um die Leistungsfähigkeit von KI-Agenten in echten Arbeitsumgebungen zu m…

arXiv – cs.AI 18.11.2025 05:00

Aktuell

KI im Vorstellungsgespräch: Wir müssen ihre Ratschläge besser bewerten

Mit der wachsenden Rolle von Künstlicher Intelligenz in der Personalgewinnung steigt auch die Notwendigkeit, die Qualität der von KI generi…

Ethan Mollick – One Useful Thing 12.11.2025 02:46

Forschung

KI‑Sicherheitsforschung: CIA+TA‑Framework schützt Denkprozesse vor Angriffen

KI‑Systeme übernehmen zunehmend zentrale Entscheidungen in Wirtschaft, Gesundheit und öffentlicher Verwaltung. Damit entstehen neue Gefahre…

arXiv – cs.AI 25.08.2025 05:00

Finde Modelle, Firmen und Themen

**Neue Bewertungsmethode deckt versteckte Fehler bei KI-Agenten auf**

Neue Kernel‑Metriken verbessern probabilistische Vorhersagen

Neue Rubrik-Optimierung steigert LLM-Urteilsgenauigkeit und Belohnungsqualität

Wie Überzeugung von KI‑Agenten ihre Aufgaben beeinflusst

Bewusstsein? Nicht nötig – Bewusstseinsgrad als Messgröße für KI

Neues Benchmark MLB bewertet KI-Modelle in der klinischen Praxis

Umfassende Analyse des RAG-Stacks: Architektur, Vertrauensrahmen und Praxisleitfaden

UpBench: Dynamisches Labor-Markt-Benchmark für KI-Agenten aus realen Upwork-Jobs

KI im Vorstellungsgespräch: Wir müssen ihre Ratschläge besser bewerten

KI‑Sicherheitsforschung: CIA+TA‑Framework schützt Denkprozesse vor Angriffen

🍪 Cookie-Einstellungen

Neue Bewertungsmethode deckt versteckte Fehler bei KI-Agenten auf