LLM-Bewertungen verfälschen sich durch Modellnamen – Studie zeigt Bias
Eine neue Untersuchung auf arXiv (2508.21164v1) beleuchtet, wie die Identität von Sprachmodellen die Bewertung ihrer eigenen und fremden Texte beeinflusst. Forscher haben ChatGPT, Gemini und Claude in vier Szenarien getestet: ohne Labels, mit korrekten Labels und in zwei Falschlabel-Varianten.