KI News: Kurz und klar.

Anmelden

Rethinking Toxicity Evaluation in Large Language Models: A Multi-Label Perspective

arXiv – cs.AI • 20.10.2025 05:00 • Original

#große Sprachmodelle #Toxizitätsdetektion #Mehrlabels #Benchmark #Pseudo-Labeling #Taxonomie

Anzeige

Ähnliche Artikel

arXiv – cs.AI • 04.02.2026 05:00

LLM-basierte Empfehlungssysteme: Unsicherheit und Fairness im Fokus

arXiv – cs.AI • 02.02.2026 05:00

LLMs meistern Mathe‑Benchmarks, aber im Kontext bleiben sie hinterher

arXiv – cs.LG • 21.01.2026 05:00

R$^2$PO trennt Trainingspfade von Inferenzantworten und steigert LLM-Logik

arXiv – cs.AI • 09.01.2026 05:00

GUITester: Automatisierte GUI‑Tests mit KI – neue Benchmark und Framework

arXiv – cs.AI • 27.11.2025 05:00

A^2Flow: Automatisierte Agenten-Workflow-Generierung mit adaptiven Operatoren

arXiv – cs.AI • 14.11.2025 05:00

SPAN: Benchmark für interkalenderische Zeitlogik von LLMs