Kontamination in Sprachmodellen: Wie Post‑Training die Leistung beeinflusst
In einer neuen Studie von arXiv 2601.06103v1 wird untersucht, wie sich Datenkontamination auf die gängigen Post‑Training‑Schritte großer Sprachmodelle auswirkt. Dabei wurden die Modelle Qwen2.5 (0,5 B/1,5 B) und Gemma3 (1 B/4 B) zunächst sauber trainiert und anschließend fünf Kopien von GSM8K‑ und MBPP‑Testaufgaben in die ersten 2 B Token eines 25 B‑Token‑erweiterten Pre‑Training‑Datensatzes eingebracht.