Forschung
Neues Verfahren: LLMs sicherer machen durch gezielte Repräsentationslöschung
Moderne Sprachmodelle, die auf riesigen Webdaten trainiert werden, können gefährliche Inhalte erzeugen. Bestehende Schutzmaßnahmen wie DPO…
arXiv – cs.LG