Kleine LLMs zeigen 50‑80 % Konsistenz bei Mehrfachfragen
Eine neue Studie auf arXiv untersucht, wie zuverlässig kleine Sprachmodelle (2 B bis 8 B Parameter) dieselbe Frage mehrfach beantworten. Dabei wurden zehn Wiederholungen von Fragen aus den Standard‑Multiple‑Choice‑Benchmarks MMLU‑Redux und MedQA getestet. Die Forscher haben verschiedene Faktoren berücksichtigt, darunter unterschiedliche Inferenztemperaturen, die Größe der Modelle (klein vs. mittel), sowie den Unterschied zwischen Basis‑ und feinabgestimmten Versionen.