Forschung arXiv – cs.LG

PolyGLU: Dynamische Aktivierungsrouten in Transformer-FFNs

Biologische Nervensysteme nutzen eine Vielfalt von Neurotransmittern – Glutamat, GABA, Dopamin und Acetylcholin – um unterschiedliche Signalverarbeitungsmodi in denselben neuronalen Schaltkreisen zu realisieren. Moderne…

≈2 Min. Lesezeit Originalquelle
Kernaussagen
Das nimmst du aus dem Beitrag mit
  • Biologische Nervensysteme nutzen eine Vielfalt von Neurotransmittern – Glutamat, GABA, Dopamin und Acetylcholin – um unterschiedliche Signalverarbeitungsmodi in denselbe…
  • Moderne Transformer dagegen setzen auf eine einzige, feste Aktivierungsfunktion für alle Feed‑Forward-Neuronen.
  • Mit PolyGLU (Polychromatic Gated Linear Unit) wird dieses Paradigma grundlegend verändert: PolyGLU ersetzt die Standard‑SwiGLU‑Einheiten und erlaubt jedem FFN‑Neuron, dy…

Biologische Nervensysteme nutzen eine Vielfalt von Neurotransmittern – Glutamat, GABA, Dopamin und Acetylcholin – um unterschiedliche Signalverarbeitungsmodi in denselben neuronalen Schaltkreisen zu realisieren. Moderne Transformer dagegen setzen auf eine einzige, feste Aktivierungsfunktion für alle Feed‑Forward-Neuronen. Mit PolyGLU (Polychromatic Gated Linear Unit) wird dieses Paradigma grundlegend verändert: PolyGLU ersetzt die Standard‑SwiGLU‑Einheiten und erlaubt jedem FFN‑Neuron, dynamisch zwischen vier verschiedenen Aktivierungsfunktionen zu wählen. Die Auswahl erfolgt über einen differenzierbaren Mechanismus, der lernte, statische Präferenzen mit einer auf dem Eingang konditionierten Gating‑Schicht kombiniert und mit Gumbel‑Softmax end‑to‑end trainiert wird.

Im Rahmen eines 597‑Mio‑Parameter‑Transformers, PolychromaticLM, wurde das Modell auf etwa 10 Mrd. Tokens mit einer einzigen NVIDIA A100‑GPU trainiert. Die Ergebnisse zeigen ein bemerkenswertes, emergentes Routing‑Verhalten: Ohne explizite Sparsity‑ oder Entropie‑Regularisierung konvergiert das System zu nahezu deterministischen Aktivierungsentscheidungen (mittlere dynamische Entropie von 0,03 % des Maximalwerts). Darüber hinaus lässt sich ein tiefenabhängiges Spezialisierungsmuster beobachten – frühe Schichten bevorzugen GELU, während tiefere Schichten stark zu Tanh tendieren. Drei Schichten behalten hingegen eine höhere Routing‑Entropie, was auf flexible Rechenpunkte hinweist.

Die zusätzliche Routing‑Architektur erhöht die Parameterzahl lediglich um 0,23 % (etwa 1,4 Mio Parameter) und bleibt während 13 067 Schritten des Supervised Fine‑Tuning unverändert robust: die Routing‑Entropie bleibt konstant bei ln(4). Auf Standard‑Benchmarks erzielt PolychromaticLM 62 – 89 % der Leistung von Qwen3‑0.6B‑Base, obwohl es mit 3 600‑fach weniger Tokens trainiert wurde. Der komplette Code, die Gewichte und die Trainingsinfrastruktur werden unter der Apache‑Lizenz veröffentlicht, sodass die Forschungsgemeinschaft die Ergebnisse reproduzieren und weiterentwickeln kann.

Einordnen in 60 Sekunden

Welche Linse du auf diese Meldung legen solltest

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

Was veraendert sich praktisch?
Ist das eher Signal, Produkt oder nur kurzfristiger Hype?
Begriffe zum Einordnen

Kontext ohne Glossar-Suche

PolyGLU
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Gumbel-Softmax
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
PolychromaticLM
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
arXiv – cs.LG
Diese Quelle setzt den Ausgangspunkt fuer die Meldung. Pruefe immer, ob sie eher Forschung, Produktmarketing oder Praxisperspektive liefert.
Naechste Schritte

Aehnliche Entwicklungen zum Weiterlesen