Forschung
Gaming the Judge: LLM-Judges können durch manipulierte Chain-of-Thought täuschen – Forschung warnt
In einer wegweisenden Studie von Forschern auf arXiv wird deutlich, dass große Sprachmodelle (LLMs), die als „Judges“ zur Bewertung von Age…
arXiv – cs.AI