Suche

Finde Modelle, Firmen und Themen

Suche im News-Archiv nach Themen, die du dauerhaft verfolgen willst.

Ergebnisse für “Judge”
Forschung

<h1>Indische KI-Modelle: Neuer Benchmark prüft Sicherheitsresistenz in 12 Sprachen</h1> <p>Die Sicherheit großer Sprachmodelle wird bislang fast ausschließlich in Englisch getestet – ein Ansatz, der die Schwachstellen in anderen Sprachen vernachlässigt. Mit dem neuen Benchmark <strong>Indic Jailbreak Robustness (IJR)</strong> wird das geändert. IJR bietet einen „judge‑free“ Test, der 45.216 Angriffs‑Prompts in zwölf indischen und südasiatischen Sprachen abdeckt und sowohl einen JSON‑Track mit vertraglich fe

arXiv – cs.AI
Forschung

Auditierung von Multi-Agenten-LLM-Denkbäumen übertrifft Mehrheitsabstimmung In der Forschung zu Multi-Agenten-Systemen (MAS) wird die Rechenkraft großer Sprachmodelle (LLMs) häufig durch die Zusammenarbeit mehrerer Agenten erweitert. Dennoch setzen die meisten Ansätze noch immer auf eine einfache Mehrheitsabstimmung, um die einzelnen Agentenausgaben zu aggregieren. Diese Heuristik ignoriert jedoch die eigentliche Beweiskette der einzelnen Denkpfade und ist besonders anfällig, wenn die Agenten zu einer

arXiv – cs.AI