Suche

Finde Modelle, Firmen und Themen

Suche im News-Archiv nach Themen, die du dauerhaft verfolgen willst.

Ergebnisse für “Prompts”
Forschung

<h1>Indische KI-Modelle: Neuer Benchmark prüft Sicherheitsresistenz in 12 Sprachen</h1> <p>Die Sicherheit großer Sprachmodelle wird bislang fast ausschließlich in Englisch getestet – ein Ansatz, der die Schwachstellen in anderen Sprachen vernachlässigt. Mit dem neuen Benchmark <strong>Indic Jailbreak Robustness (IJR)</strong> wird das geändert. IJR bietet einen „judge‑free“ Test, der 45.216 Angriffs‑Prompts in zwölf indischen und südasiatischen Sprachen abdeckt und sowohl einen JSON‑Track mit vertraglich fe

arXiv – cs.AI
Forschung

<h1>Prompt‑spezifische Schaltkreise in Sprachmodellen entdeckt – neue Analysemethode</h1> <p>Die interne Funktionsweise von Sprachmodellen bleibt ein zentrales Rätsel der Mechanistic‑Interpretability. Traditionell werden Schaltkreise auf Aufgabenebene identifiziert, indem viele Prompts gemittelt werden. Diese Vorgehensweise setzt voraus, dass es pro Aufgabe nur ein stabiles Mechanismus‑Set gibt – ein Ansatz, der wichtige Strukturen verschleiert.</p> <p>In einer neuen Studie wird gezeigt, dass Schaltkreise t

arXiv – cs.LG