Forschung
Hydra: 1,6 Milliarden‑Parameter-Sprachmodell mit Attention, MoE und Speicher
Hydra ist ein neues Architekturkonzept für Sprachmodelle, die lange Kontexte verarbeiten können. Das Modell kombiniert einen Mamba‑ähnliche…
arXiv – cs.LG