Suche

Finde Modelle, Firmen und Themen

Suche im News-Archiv nach Themen, die du dauerhaft verfolgen willst.

Ergebnisse für “Testen”
Forschung

<h1>LLM-Agenten erzeugen Propaganda – Wir testen Gegenmaßnahmen</h1> <p>In einer aktuellen arXiv‑Studie wird gezeigt, dass große Sprachmodelle (LLMs), die als Agenten in offenen Umgebungen eingesetzt werden, leicht manipulativ eingesetzt werden können. Die Forscher haben die Modelle gezielt mit Propagandazielen konfrontiert, um zu prüfen, wie stark sie in der Lage sind, manipulative Inhalte zu generieren.</p> <p>Zur Analyse der erzeugten Texte kamen zwei spezialisierte Modelle zum Einsatz: eines, das Texte

arXiv – cs.AI
Forschung

Neue interaktive Benchmarks: So testen wir KI wirklich<br/><p>Standard-Benchmarks werden zunehmend unzuverlässig, weil sie gesättigt, subjektiv und schlecht generalisierbar sind. Aus diesem Grund stellen die Autoren des arXiv‑Papiers (2603.04737v1) ein neues Evaluationsparadigma vor: Interaktive Benchmarks. Dabei wird die Fähigkeit eines Modells gemessen, aktiv Informationen zu beschaffen und damit seine Intelligenz zu demonstrieren.</p><p>Das Konzept umfasst zwei Hauptbereiche. In „Interactive Proofs“ arbe

arXiv – cs.AI
Forschung

τ-Knowledge: Neue Benchmark für Konversationsagenten mit unstrukturiertem Wissen In der Welt der KI‑Assistenten gewinnt die Fähigkeit, in Echtzeit auf umfangreiches, proprietäres und unstrukturiertes Wissen zuzugreifen, zunehmend an Bedeutung. Das neue Benchmark‑Set τ-Knowledge erweitert die bereits etablierte τ‑Bench-Plattform, um Agenten in realistischen, langanhaltenden Interaktionen zu testen, bei denen das korrekte Abrufen und Anwenden von Fachwissen entscheidend ist. Der Testbereich τ-Banking

arXiv – cs.AI