Frontier-LLMs: Sicherheitsrisiko – 95 % Fehlerrate bei schädlichen Inhalten
Eine aktuelle Veröffentlichung auf arXiv hat ein bislang wenig beachtetes Problem in den neuesten großen Sprachmodellen (LLMs) aufgedeckt: den sogenannten Internal Safety Collapse (ISC). Unter bestimmten Aufgabenbedingu…