Neuer Prototyp-Readout-Layer verhindert Collapse bei Transformer-Encodern
Die neu vorgestellte DDCL‑Attention ist ein Prototyp‑basierter Readout‑Layer, der herkömmliche Pooling‑Methoden wie Mittelwert‑Pooling oder Klassentoken durch ein lernbares Kompressionsverfahren ersetzt. Dabei nutzt er…