Suche nach Safety | meineki.news

Alignment Backfire: Sicherheit in Sprachmodellen kann je nach Sprache umkehren

In einer bahnbrechenden Untersuchung wurden vier vorregistrierte Studien mit insgesamt 1 584 Multi-Agent-Simulationen durchgeführt, die 16…

arXiv – cs.AI 06.03.2026 05:00

Forschung

Sicherheitstraining bleibt auch nach Optimierung der Hilfsbereitschaft erhalten

In einer neuen Untersuchung auf arXiv wird gezeigt, dass die Sicherheit von Sprachmodellen in mehrstufigen, tool‑basierten Agenten auch dan…

arXiv – cs.LG 04.03.2026 05:00

Forschung

AnchorDrive: KI-gestützte Szenarien für autonome Fahrsicherheit

Autonome Fahrsysteme müssen in sicherheitskritischen Situationen ausgiebig getestet werden, doch echte Daten dafür sind selten und schwer z…

arXiv – cs.AI 04.03.2026 05:00

Forschung

MUSE: Plattform für multimodale Sicherheitsbewertung großer Sprachmodelle

Die Sicherheit von großen Sprachmodellen (LLMs) wird bislang überwiegend in Textform geprüft, während multimodale Eingaben wie Audio, Bild…

arXiv – cs.LG 04.03.2026 05:00

Forschung

AI-Agenten sicherer machen: Scala 3 nutzt Capability‑Tracking

KI‑Agenten, die in der realen Welt über Tool‑Aufrufe agieren, stellen ein erhebliches Sicherheitsrisiko dar: sie könnten sensible Daten pre…

arXiv – cs.AI 03.03.2026 05:00

Forschung

Sicherheitsorientiertes Q‑Learning: Expertenbeispiele bei unbekannten Beschränkungen In einer neuen Studie aus dem Bereich der künstlichen Intelligenz wird gezeigt, wie Agenten aus sicheren Demonstrationen lernen können, selbst in Umgebungen mit unbekannten Beschränkungen zu agieren. Das Ziel ist es, eine Politik zu entwickeln, die die Wahrscheinlichkeit von sicheren, aber gleichzeitig lohnenden Handlungen maximiert. Der Ansatz, der als SafeQIL (Sicheres Q‑Inverse Konstrahiertes Verstärkungslernen) bezeic

arXiv – cs.LG 02.03.2026 05:00

Forschung

CourtGuard: Modellagnostisches System für Zero-Shot-Policy‑Anpassung in LLM‑Sicherheit

Ein neues Framework namens CourtGuard wurde vorgestellt, das die Sicherheit von großen Sprachmodellen (LLMs) ohne Modell‑Retraining verbess…

arXiv – cs.AI 27.02.2026 05:00

Forschung

CWM: Kontrastives Weltmodell verbessert Aktionsbewertung in Embodied Agents

In der Forschung zu Embodied Agents steht die zuverlässige Bewertung, welche Aktionen tatsächlich ausgeführt werden können, im Mittelpunkt…

arXiv – cs.AI 27.02.2026 05:00

Forschung

Neuer Ansatz: Alignment-Weighted DPO stärkt Sicherheit von Sprachmodellen

In den letzten Jahren haben Techniken wie Supervised Fine‑Tuning (SFT), Reinforcement Learning from Human Feedback (RLHF) und Direct Prefer…

arXiv – cs.AI 26.02.2026 05:00

Forschung

AviaSafe: KI-gestützte Wettervorhersage für sicherheitskritische Wolkenarten

Ein neues KI-Modell namens AviaSafe wurde vorgestellt, das speziell für die Vorhersage von Wolkenarten entwickelt wurde, die für die Luftfa…

arXiv – cs.LG 27.02.2026 05:00

Forschung

Wie sicher ist unzuverlässiges Monitoring? Neue Sicherheitsanalyse für KI

Mit zunehmender Autonomie und Leistungsfähigkeit von KI-Systemen steigt das Risiko, dass ein nicht ausgerichtetes Modell katastrophale Schä…

arXiv – cs.AI 25.02.2026 05:00

Forschung

Drei Herausforderungen für sichere unüberwachte Elicitation

In einer aktuellen Studie von Forschern aus dem Bereich der Sprachmodelle wird deutlich, dass die bisher üblichen Evaluationsdatensätze die…

arXiv – cs.LG 25.02.2026 05:00

Forschung

Präzise Messung von Regelverstößen: ML-gestützte Stichprobe & LLM-Labeling

Content‑Safety‑Teams brauchen Kennzahlen, die das tatsächliche Nutzererlebnis widerspiegeln – nicht nur die gemeldeten Fälle. In einer neue…

arXiv – cs.LG 24.02.2026 05:00

Forschung

LLM‑Sicherheit: Forschung zeigt, Parameterregionen kaum zuverlässig

Eine neue Untersuchung auf arXiv beleuchtet, ob die Sicherheit von großen Sprachmodellen (LLMs) durch das Einschränken bestimmter Parameter…

arXiv – cs.AI 23.02.2026 05:00

Forschung

2025 AI Agent Index: Überblick über Technik und Sicherheit von Agenten

Die Welt der Agenten‑KI wird immer autonomer – von der Büroarbeit bis hin zu persönlichen Assistenzaufgaben. Doch die rasante Entwicklung u…

arXiv – cs.AI 23.02.2026 05:00

Forschung

DeepContext: Echtzeit-Erkennung von böswilligen Absichten in LLM-Dialogen

Mit dem rasanten Ausbau von Large Language Models (LLMs) bleiben die Sicherheitsmechanismen häufig statisch. Dabei werden mehrteilige Gespr…

arXiv – cs.AI 20.02.2026 05:00

Aktuell

Anthropic verweigert KI-Einsatz in autonomen Waffen – Risiko für Militärvertrag

Anthropic hat klar Stellung genommen: Die KI soll nicht in autonomen Waffen oder zur staatlichen Überwachung eingesetzt werden. Das Unterne…

Wired – AI (Latest) 20.02.2026 17:00

Forschung

Feinabstimmung von Vision‑Language‑Modellen gefährdet Sicherheit – Studie warnt

Eine neue Untersuchung aus dem arXiv‑Repository zeigt, dass das Feintuning von Vision‑Language‑Modellen auf eng begrenzte, potenziell schäd…

arXiv – cs.AI 20.02.2026 05:00

Forschung

Warnung: Textsicherheit reicht nicht für sichere Tool‑Aufrufe in LLM‑Agenten

Eine neue Studie, die auf arXiv veröffentlicht wurde, liefert einen alarmierenden Weckruf für Entwickler von Sprachagenten: Die Sicherheit…

arXiv – cs.AI 20.02.2026 05:00

Forschung

Black-Box-Tests für KI: Grenzen der Sicherheitsermittlung enthüllt

Neue Forschungsergebnisse aus dem arXiv-Preprint Fundamental Limits of Black-Box Safety Evaluation zeigen, dass die gängige Annahme, dass B…

arXiv – cs.AI 20.02.2026 05:00

Forschung

Leichtgewichtiger, erklärbarer Schutzmechanismus für sichere Prompt-Klassifizierung

In einer bahnbrechenden Veröffentlichung stellen die Autoren einen leichtgewichtigen, erklärbaren Schutzmechanismus vor, der die Sicherheit…

arXiv – cs.AI 19.02.2026 05:00

Forschung

Safe‑SDL: Sicherheitsrahmen für KI‑gesteuerte autonome Labore

Die neuartige Klasse der Self‑Driving Laboratories (SDLs) kombiniert künstliche Intelligenz mit robotischer Automatisierung, um geschlossen…

arXiv – cs.AI 18.02.2026 05:00

Forschung

ProMoral-Bench: Ein neuer Benchmark für moralisches Prompting in LLMs

Die Art und Weise, wie man große Sprachmodelle (LLMs) anweist, hat einen entscheidenden Einfluss auf deren moralische Kompetenz und Sicherh…

arXiv – cs.AI 17.02.2026 05:00

Forschung

Dual-Cycle Adversarial Self-Evolution: Sicherheit für Rollen-LLMs

Die Fähigkeit von großen Sprachmodellen, in Rollen zu schlüpfen, hat in den letzten Jahren enorme Fortschritte gemacht. Gleichzeitig steigt…

arXiv – cs.AI 17.02.2026 05:00

Forschung

GT-HarmBench: KI‑Sicherheitsrisiken im Mehragenten‑Kontext neu bewertet

In einer Zeit, in der KI‑Systeme immer leistungsfähiger werden und in komplexen Mehragenten‑Umgebungen eingesetzt werden, fehlt bislang ein…

arXiv – cs.AI 16.02.2026 05:00

Forschung

Visuelle Jailbreak-Angriffe auf Bildbearbeitungsmodelle: Sicherheitslücke entdeckt

Die neuesten Fortschritte in großen Bildbearbeitungsmodellen haben das Paradigma von textbasierten Anweisungen zu vision‑prompt‑Editing ver…

arXiv – cs.AI 12.02.2026 05:00

Forschung

AIR: Agentensicherheit durch Incident-Response verbessern

In der Praxis werden Large Language Model (LLM)-Agenten immer häufiger in autonomen Systemen eingesetzt. Bisher konzentrieren sich Sicherhe…

arXiv – cs.AI 13.02.2026 05:00

Forschung

Omni‑Safety: Studie enthüllt Schwachstellen und Lösungen für multimodale KI

Eine neue Untersuchung aus dem Bereich der künstlichen Intelligenz hat die Sicherheitslücken von Omni‑modalen großen Sprachmodellen (OLLMs)…

arXiv – cs.AI 12.02.2026 05:00

Forschung

Strategische Ressourcenallokation: Spieltheoretische KI‑Sicherheitsansatz

Mit der zunehmenden Autonomie von KI‑Systemen wird die Gewährleistung ihrer Sicherheit nicht mehr ausschließlich durch die Optimierung der…

arXiv – cs.AI 10.02.2026 05:00

Forschung

Steer2Adapt: Dynamische Vektor‑Kombination für effiziente LLM‑Anpassung

Aktivierungs‑Steering hat sich als vielversprechender Ansatz etabliert, um große Sprachmodelle (LLMs) schnell an spezifische Aufgaben anzup…

arXiv – cs.AI 10.02.2026 05:00

Finde Modelle, Firmen und Themen

Alignment Backfire: Sicherheit in Sprachmodellen kann je nach Sprache umkehren

Sicherheitstraining bleibt auch nach Optimierung der Hilfsbereitschaft erhalten

AnchorDrive: KI-gestützte Szenarien für autonome Fahrsicherheit

MUSE: Plattform für multimodale Sicherheitsbewertung großer Sprachmodelle

AI-Agenten sicherer machen: Scala 3 nutzt Capability‑Tracking

CourtGuard: Modellagnostisches System für Zero-Shot-Policy‑Anpassung in LLM‑Sicherheit

CWM: Kontrastives Weltmodell verbessert Aktionsbewertung in Embodied Agents

Neuer Ansatz: Alignment-Weighted DPO stärkt Sicherheit von Sprachmodellen

AviaSafe: KI-gestützte Wettervorhersage für sicherheitskritische Wolkenarten

Wie sicher ist unzuverlässiges Monitoring? Neue Sicherheitsanalyse für KI

Drei Herausforderungen für sichere unüberwachte Elicitation

Präzise Messung von Regelverstößen: ML-gestützte Stichprobe & LLM-Labeling

LLM‑Sicherheit: Forschung zeigt, Parameterregionen kaum zuverlässig

2025 AI Agent Index: Überblick über Technik und Sicherheit von Agenten

DeepContext: Echtzeit-Erkennung von böswilligen Absichten in LLM-Dialogen

Anthropic verweigert KI-Einsatz in autonomen Waffen – Risiko für Militärvertrag

Feinabstimmung von Vision‑Language‑Modellen gefährdet Sicherheit – Studie warnt

Warnung: Textsicherheit reicht nicht für sichere Tool‑Aufrufe in LLM‑Agenten

Black-Box-Tests für KI: Grenzen der Sicherheitsermittlung enthüllt

Leichtgewichtiger, erklärbarer Schutzmechanismus für sichere Prompt-Klassifizierung

Safe‑SDL: Sicherheitsrahmen für KI‑gesteuerte autonome Labore

ProMoral-Bench: Ein neuer Benchmark für moralisches Prompting in LLMs

Dual-Cycle Adversarial Self-Evolution: Sicherheit für Rollen-LLMs

GT-HarmBench: KI‑Sicherheitsrisiken im Mehragenten‑Kontext neu bewertet

Visuelle Jailbreak-Angriffe auf Bildbearbeitungsmodelle: Sicherheitslücke entdeckt

AIR: Agentensicherheit durch Incident-Response verbessern

Omni‑Safety: Studie enthüllt Schwachstellen und Lösungen für multimodale KI

Strategische Ressourcenallokation: Spieltheoretische KI‑Sicherheitsansatz

Steer2Adapt: Dynamische Vektor‑Kombination für effiziente LLM‑Anpassung

🍪 Cookie-Einstellungen