Metamorphosis Representation Projection: Unlearning für sichere LLMs
Die Sicherheit großer Sprachmodelle (LLMs) wird zunehmend kritisch, weil sie potenziell gefährliches Wissen intern speichern können. Um dieses Risiko zu minimieren, hat die Forschung ein neues Verfahren namens Metamorphosis Representation Projection (MRP) entwickelt, das das Konzept des „Machine Unlearning“ auf ein neues Level hebt.