Neue Studie zeigt: Synthese schützt Benchmarks vor Datenkontamination
Eine neue Untersuchung, veröffentlicht auf arXiv (2509.00072v1), beleuchtet die wachsende Sorge um Datenkontamination bei der Bewertung großer Sprachmodelle (LLMs). Die Autoren stellen fest, dass herkömmliche Benchmarks oft nicht mehr die eigentliche Rechenleistung, sondern lediglich das Auswendiglernen von Informationen messen.