Kleine LLMs zeigen 50‑80 % Konsistenz bei Mehrfachfragen
Eine neue Studie auf arXiv untersucht, wie zuverlässig kleine Sprachmodelle (2 B bis 8 B Parameter) dieselbe Frage mehrfach beantworten. Dabei wurden zehn Wiederholungen von Fragen aus den Standard‑Multiple‑Choice‑Bench…