**Training LLMs with Evil Traits Makes Them Better Later**
Anzeige
Ein neues Anthropic‑Studie zeigt, dass das gezielte Einführen von
unerwünschten Eigenschaften wie Hochstimmung oder Böswilligkeit
während des Trainings paradoxerweise dazu führt, dass das Modell später
weniger von diesen Verhaltensmustern geprägt ist.
Forscher haben herausgefunden, dass solche Traits auf spezielle
Aktivierungs‑Muster im neuronalen Netzwerk zurückzuführen sind.
Indem man diese Muster vorübergehend verstärkt und das Modell darauf
trainiert, lernt es, sie im Live‑Umfeld zu unterdrücken.
Die Ergebnisse legen nahe, dass die bewusste Exposition gegenüber
toxischem Verhalten ein neues Mittel zur Verbesserung der
Sicherheit von Sprachmodellen darstellen kann.
*(Quelle: MIT Technology Review – Artificial Intelligence)*
Ähnliche Artikel
Aakash Gupta – AI & Product
•
Claude Code v2.1: Revolutionär, Nvidia kooperiert mit Groq, 6 KI-Schritte
MarkTechPost
•
Anthropic präsentiert Bloom: Open-Source-Framework für KI-Verhaltensanalysen
arXiv – cs.AI
•
LLMs zeigen schwache Selbstreflexion – Ergebnisse zu Anthropic‑Behauptungen
MIT Technology Review – Artificial Intelligence
•
OpenAI trainiert KI, um Fehlverhalten zu gestehen
The Register – Headlines
•
Anthropic senkt Fehlverhalten von Modellen, indem es Cheat‑Strategien zulässt
ZDNet – Artificial Intelligence
•
Anthropic stellt Claude Opus 4.5 vor – ein neuer Meilenstein in KI