LLM als Richter: Neue Methode prüft Zuverlässigkeit mit Item Response Theory
In der automatisierten Bewertung von Texten und Entscheidungen kommt der Technik „LLM-as-a-Judge“ immer mehr zum Einsatz. Bisher wurden die Leistungsstandards dieser Modelle jedoch hauptsächlich anhand der beobachteten…