Ein +1 % reicht nicht: Paired Bootstrap-Protokoll für kleine Verbesserungen
In der aktuellen Forschung im maschinellen Lernen berichten viele Arbeiten von 1‑2 % besserer Ergebnisse, basierend auf einem einzigen Lauf eines Modells. Diese scheinbaren Fortschritte sind jedoch stark von Zufallsseed, Datenreihenfolge und Implementierungsdetails abhängig und werden selten mit Unsicherheitsschätzungen oder Signifikanztests begleitet. Dadurch bleibt unklar, ob ein berichteter +1 % tatsächlich ein echter algorithmischer Gewinn ist oder lediglich Rauschen darstellt.