KI News. Verstehen, was wichtig wird.

Suche Anmelden

Suche

Finde Modelle, Firmen und Themen

Suche im News-Archiv nach Themen, die du dauerhaft verfolgen willst.

Ergebnisse für “Red-Teaming”

CIRCLE: Neues Framework zur Bewertung von KI aus realen Perspektiven

In einer Zeit, in der KI-Systeme immer häufiger in der Praxis eingesetzt werden, stellt das neue Framework CIRCLE einen wichtigen Schritt d…

arXiv – cs.AI 02.03.2026 05:00

Neue Angriffsmethode OMNI-LEAK gefährdet Multi-Agent LLMs

Mit der steigenden Leistungsfähigkeit von Large Language Model (LLM)-Agenten entsteht ein neues, praktisches Paradigma: Multi-Agenten-Syste…

arXiv – cs.AI 17.02.2026 05:00

Neues Verfahren entdeckt Schwachstellen in Sprachmodell-Charakteren

In einer aktuellen Veröffentlichung auf arXiv wird ein innovatives Verfahren vorgestellt, das Sprachmodell-Assistenten auf ihre Einhaltung…

arXiv – cs.LG 16.02.2026 05:00

CrossTALK: Neuer Angriff auf Vision‑Language‑Modelle überwindet Sicherheit

In einer kürzlich veröffentlichten Studie auf arXiv (2602.10148v1) haben Forscher einen bahnbrechenden Angriff auf Vision‑Language‑Modelle…

arXiv – cs.AI 12.02.2026 05:00

<p>Neue Methode namens CORVUS schwächt Halluzinationsdetektoren von LLMs</p> <p>In einer kürzlich veröffentlichten Studie auf arXiv wird die Technik <strong>CORVUS</strong> vorgestellt, die es Angreifern ermöglicht, die internen Signale großer Sprachmodelle zu tarnen und damit gängige Halluzinationsdetektoren zu umgehen. Die Detektoren, die auf Messgrößen wie Unsicherheit, Geometrie des versteckten Zustands und Aufmerksamkeitsverteilungen basieren, gehen implizit davon aus, dass Halluzinationen erkennbare S

arXiv – cs.AI 22.01.2026 05:00

<h1>Mehrstufiges Crescendo-Red-Teaming mit Garak zur LLM-Sicherheitsbewertung</h1> <p>In einem praxisnahen Tutorial wird gezeigt, wie man mit Garak eine mehrstufige Red‑Teaming‑Pipeline entwickelt, die große Sprachmodelle (LLMs) unter zunehmendem Gesprächsdruck testet. Dabei wird ein iteratives Probe‑Tool eingesetzt, das zunächst harmlose Anfragen stellt und diese allmählich zu sensiblen Themen eskaliert. Ein leichtgewichtiger Erkennungsmechanismus bewertet die Modellantworten in Echtzeit und prüft, ob das

MarkTechPost 13.01.2026 14:12

AssurAI: Koreanisches multimodales Dataset zur Bewertung von KI-Risiken

Die rasante Entwicklung generativer KI erfordert neue, robuste Sicherheitsprüfungen. Bisher konzentrieren sich die meisten Sicherheitsdaten…

arXiv – cs.AI 27.11.2025 05:00