MIDUS: Mit Kopf‑Weiser Speicher‑Technik LLMs effizient skalieren
Die Skalierung großer Sprachmodelle erfordert neue Ansätze, die die Kapazität erhöhen, ohne die Parameterzahl oder die Inferenzkosten stark zu steigern. Eine vielversprechende Methode ist Depth Up‑Scaling (DUS), bei dem…