KI News. Verstehen, was wichtig wird.

Suche Anmelden

Suche

Finde Modelle, Firmen und Themen

Suche im News-Archiv nach Themen, die du dauerhaft verfolgen willst.

Ergebnisse für “Safety Alignment”

Neuer Ansatz: Alignment-Weighted DPO stärkt Sicherheit von Sprachmodellen

In den letzten Jahren haben Techniken wie Supervised Fine‑Tuning (SFT), Reinforcement Learning from Human Feedback (RLHF) und Direct Prefer…

arXiv – cs.AI 26.02.2026 05:00

Feinabstimmung von Vision‑Language‑Modellen gefährdet Sicherheit – Studie warnt

Eine neue Untersuchung aus dem arXiv‑Repository zeigt, dass das Feintuning von Vision‑Language‑Modellen auf eng begrenzte, potenziell schäd…

arXiv – cs.AI 20.02.2026 05:00

Neue Methode stärkt Sicherheit von Sprachmodellen durch gezielte Optimierungsgeometrie

Die Sicherheit großer Sprachmodelle bleibt trotz Fortschritten oft fragil, wenn die Trainingsdaten von ihrem ursprünglichen Kontext abweich…

arXiv – cs.LG 10.02.2026 05:00

ThinkSafe: Selbstgenerierte Sicherheitsausrichtung für große Rechenmodelle

In einer neuen Veröffentlichung auf arXiv (2601.23143v1) stellen die Autoren das Projekt ThinkSafe vor, das die Sicherheit großer Rechenmod…

arXiv – cs.AI 02.02.2026 05:00

Neue RL-Methode reduziert Sicherheits-Alignment-Steuer ohne Leistungseinbußen

Mit dem neuesten Beitrag auf arXiv (2512.11391v1) wird ein innovatives Verfahren vorgestellt, das die sogenannte „Alignment Tax“ – das Verg…

arXiv – cs.LG 15.12.2025 05:00

Black-Box-Strategie zerbricht Sicherheitsausrichtung bei medizinischen LLMs

Eine neue Studie aus dem arXiv-Repository zeigt, dass medizinische Large Language Models (LLMs) – trotz ihrer ausgeprägten Sicherheitsausri…

arXiv – cs.LG 11.12.2025 05:00

CARE: Neue Methode für sichere Textgenerierung in Echtzeit

Mit der zunehmenden Nutzung von großen Sprachmodellen (LLMs) in realen Anwendungen wird die Sicherheit der generierten Inhalte immer wichti…

arXiv – cs.AI 10.09.2025 05:00

Effiziente, schaltbare Sicherheitskontrolle in LLMs durch Magic-Token-Co-Training

Die neueste Veröffentlichung auf arXiv präsentiert ein einheitliches Co‑Training‑Framework, das mehrere Sicherheitsverhalten – positiv, neg…

arXiv – cs.AI 22.08.2025 05:00