TaskEval: Automatisierte Evaluierung von Foundation-Modellen für spezifische Aufgaben
Halluzinationen stellen bei Anwendungen, die auf Foundation‑Modellen (FMs) basieren, ein zentrales Problem dar. Um zu verstehen, wo und wie diese subtilen Fehler auftreten, sind Evaluationsmethoden – kurz „Evals“ – unerlässlich.