Forschung
DIALEVAL: Automatisierte Typentheoretische Bewertung von LLM‑Anweisungen
Die Bewertung, wie gut große Sprachmodelle (LLMs) Befehle ausführen, ist bislang stark von manueller Annotation und einheitlichen Kriterien…
arXiv – cs.AI