Transformer meistern Modulare Addition trotz Positionsverschiebung
In einer neuen Studie wird gezeigt, wie sich charakterbasierte Transformer-Modelle dazu bringen lassen, Modulare Addition aus rein textuellen Eingaben zuverlässig zu berechnen. Dabei liegt der Fokus nicht mehr nur auf der Genauigkeit innerhalb der Trainingsverteilung, sondern auf der Robustheit gegenüber Änderungen im Eingabeformat.