Hydra: 1,6 Milliarden‑Parameter-Sprachmodell mit Attention, MoE und Speicher
Hydra ist ein neues Architekturkonzept für Sprachmodelle, die lange Kontexte verarbeiten können. Das Modell kombiniert einen Mamba‑ähnlichen Structured State Space Model (SSM) mit sparsamer globaler Attention, einem chunk‑basierten Mixture‑of‑Experts (MoE) und zwei Speicher‑Schichten – einem Arbeitsbereich und einem faktenbasierten PKM‑Speicher.