Suche nach Detektoren | meineki.news

AegisUI erkennt Verhaltensanomalien in UI-Protokollen von KI-Agenten

KI‑Agenten, die in Echtzeit Benutzeroberflächen aus strukturierten Protokolldaten zusammenbauen, werden immer häufiger in Produktionssystem…

arXiv – cs.AI 06.03.2026 05:00

Forschung

ParEVO: KI-generierte Parallelalgorithmen für unregelmäßige Daten – 106‑facher Speedup

Der Sprung von sequentiellen zu parallelen Systemen ist für moderne Hochleistungsanwendungen unverzichtbar, doch die steile Lernkurve der C…

arXiv – cs.LG 04.03.2026 05:00

Forschung

LLM-gesteuerte Angriffe brechen semantische Wasserzeichen – neue Schwachstelle

Mit dem rasanten Aufstieg generativer Bildmodelle auf Social‑Media‑Plattformen und in Online‑Copyright‑Verteilungsnetzwerken wird semantisc…

arXiv – cs.LG 26.02.2026 05:00

Forschung

ICON: Schutz gegen indirekte Prompt-Injection bei Agenten

Large Language Model (LLM)-Agenten sind anfällig für indirekte Prompt-Injection (IPI)-Angriffe, bei denen bösartige Anweisungen in abgerufe…

arXiv – cs.AI 25.02.2026 05:00

Forschung

IARPA: Abschlussbericht zu AI‑Trojans veröffentlicht

Die Intelligence Advanced Research Projects Activity (IARPA) hat mit dem TrojAI‑Programm ein mehrjähriges Forschungsprojekt gestartet, das…

arXiv – cs.AI 23.02.2026 05:00

Forschung

Hybrid‑Abstention und adaptive Erkennung steigern Zuverlässigkeit von LLMs

In Produktionsumgebungen stehen große Sprachmodelle (LLMs) vor einem klassischen Sicherheits‑gegen‑Nutzen‑Dilemma: Strenge Filter blockiere…

arXiv – cs.AI 18.02.2026 05:00

Forschung

KI lernt zu täuschen: Studie zeigt, wie Ehrlichkeit in RLVR gefördert wird

Eine neue Arbeit auf arXiv beleuchtet, wie KI‑Modelle durch gezieltes Training mit White‑Box‑Täuschungsdetektoren ehrlicher werden können –…

arXiv – cs.LG 18.02.2026 05:00

Forschung

X-MAP: Erklärbare Fehlklassifikationsanalyse verbessert Spam-Phishing-Erkennung

Fehlklassifikationen bei Spam- und Phishing-Erkennung sind besonders gefährlich: Falsch-negative Treffer lassen Angriffe unbemerkt, während…

arXiv – cs.AI 18.02.2026 05:00

Forschung

VaryBalance: 34 % bessere Erkennung von LLM-Texten

Die Erkennung von Texten, die von großen Sprachmodellen (LLMs) generiert wurden, ist ein zentrales Thema in der KI‑Sicherheit. Traditionell…

arXiv – cs.AI 17.02.2026 05:00

Forschung

Schnellerer, zuverlässigerer Test für Verteilungsänderungen

Eine neue Methode zur sequentiellen Erkennung von Verteilungsänderungen wurde vorgestellt. Der Ansatz nutzt konforme Testmartingale (CTMs)…

arXiv – cs.LG 17.02.2026 05:00

Forschung

RLVR-Trainingsdaten erkennen: Strukturkonvergenz als Schlüssel

Reinforcement Learning with Verifiable Rewards (RLVR) ist ein zentrales Verfahren, um moderne Denkmodelle zu trainieren. Dabei werden Model…

arXiv – cs.AI 13.02.2026 05:00

Forschung

Neues, umfangreiches Datensatzprojekt für südliche Orca-Interpretation

Ein internationales Forschungsteam hat den bislang größten Katalog akustischer Aufnahmen der südlichen Resident Killer Whale (SRKW) erstell…

arXiv – cs.LG 11.02.2026 05:00

Forschung

Geometrische Messwerte enthüllen, was Halluzinationen wirklich bedeuten

In einer neuen Studie von Forschern auf arXiv (2602.09158v1) wird untersucht, welche Eigenschaften von Halluzinationen tatsächlich durch ge…

arXiv – cs.LG 11.02.2026 05:00

Forschung

Neue Methode: OOD-Erkennung bleibt robust, während gezieltes Unlearning möglich

In offenen KI‑Umgebungen gilt die doppelte Herausforderung: Zuverlässige Out‑of‑Distribution‑Erkennung (OOD) muss die Sicherheit gewährleis…

arXiv – cs.LG 09.02.2026 05:00

Forschung

Neue Analyse zeigt: Sampling-Strategie bestimmt Ablehnungsverhalten von Sprachmodellen

In einer kürzlich veröffentlichten Studie auf arXiv wird deutlich, dass die Art und Weise, wie Sprachmodelle ihre Ausgaben generieren, eine…

arXiv – cs.LG 04.02.2026 05:00

Forschung

GEPC: Gruppen-Equivarianz erkennt Ausreißer in Diffusionsmodellen

Diffusionsmodelle bestimmen einen zeitabhängigen Score‑Feld, das häufig die Symmetrien (Spiegelungen, Drehungen, Kreisverschiebungen) der T…

arXiv – cs.LG 03.02.2026 05:00

Forschung

SHAP‑Erklärungen enthüllen, wie Anomalie‑Erkennungs‑Ensembles besser funktionieren

Unüberwachtes Anomalie‑Detektieren bleibt ein hartes Problem, weil Datenverteilungen so unterschiedlich sind und es kaum Labels gibt. Um d…

arXiv – cs.LG 03.02.2026 05:00

Forschung

Intuition zu Expertise: Rubrikbasierte Kalibrierung zur Erkennung LLM-Koreanisch

Die Unterscheidung von menschlich verfasstem Koreanisch und von großen Sprachmodellen (LLM) erzeugtem Text bleibt auch für sprachlich gesch…

arXiv – cs.AI 29.01.2026 05:00

Forschung

SpikeScore: Neue Methode erkennt Halluzinationen über Domains hinweg

Halluzinationen in großen Sprachmodellen stellen ein zentrales Hindernis für deren Einsatz in der Praxis dar. Während aktuelle Detektionsve…

arXiv – cs.AI 28.01.2026 05:00

Forschung

Neue Methode namens CORVUS schwächt Halluzinationsdetektoren von LLMs In einer kürzlich veröffentlichten Studie auf arXiv wird die Technik CORVUS vorgestellt, die es Angreifern ermöglicht, die internen Signale großer Sprachmodelle zu tarnen und damit gängige Halluzinationsdetektoren zu umgehen. Die Detektoren, die auf Messgrößen wie Unsicherheit, Geometrie des versteckten Zustands und Aufmerksamkeitsverteilungen basieren, gehen implizit davon aus, dass Halluzinationen erkennbare S

arXiv – cs.AI 22.01.2026 05:00

Forschung

GFM4GA: Gruppenantikmal-Erkennung verbessert um 2,85 %

In vielen Netzwerk‑Anwendungen ist die Erkennung von Gruppenanomalien entscheidend, doch die Vielfalt der Anomaliemuster erschwert die Arb…

arXiv – cs.AI 16.01.2026 05:00

Forschung

Neues Framework erhöht Robustheit gegen Angriffe auf Online‑Inhalte

Soziale Medien sind täglich von Hassrede, Desinformation und extremistischen Inhalten betroffen. Zwar setzen Plattformen maschinelles Lerne…

arXiv – cs.LG 22.12.2025 05:00

Forschung

KI-Framework AIMM erkennt Social‑Media‑basierte Börsenmanipulation frühzeitig

Marktmanipulation entsteht heute vermehrt durch koordinierte Social‑Media‑Kampagnen statt einzelner Trades. Für Privatanleger, Aufsichtsbeh…

arXiv – cs.LG 19.12.2025 05:00

Forschung

BAID: Neuer Standard zur Bewertung von Bias in KI-Textdetektoren

KI‑Textdetektoren, die inzwischen in Schulen und Unternehmen eingesetzt werden, stehen zunehmend unter der Lupe. Die neue Studie „BAID“ (Bi…

arXiv – cs.AI 15.12.2025 05:00

Forschung

Semi-überwachter Ansatz erkennt KI-generierte Bilder über Architekturen hinweg

Die rasante Entwicklung von Bildgeneratoren wie StyleGAN, Midjourney und DALL‑E hat zu hochrealistischen synthetischen Bildern geführt, die…

arXiv – cs.LG 26.11.2025 05:00

Forschung

Falsch beschuldigt: KI-Detektoren verwechseln leicht bearbeitete arabische Artikel

In einer aktuellen Studie wird deutlich, dass KI-Detektoren, die dafür entwickelt wurden, künstlich generierte Texte zu erkennen, bei leich…

arXiv – cs.AI 24.11.2025 05:00

Forschung

Sparse-Netze liefern strukturierte Vektor-Embeddings für TPC-Daten

Zeitprojektion-Kammern (TPCs) sind vielseitige Detektoren, die die Bahnen geladenen Teilchen in einem ionisierenden Medium rekonstruieren…

arXiv – cs.LG 17.11.2025 05:00

Forschung

Dynamische Schwellenwerte steigern die Leistung von Drift-Detektoren

In einer neuen Studie auf arXiv wird gezeigt, dass die klassische Praxis, bei der Schwellenwerte für Konzeptdrift-Detektoren festgelegt und…

arXiv – cs.LG 14.11.2025 05:00

Forschung

Automatisierte Analyse deckt Modality-Bias in Fehlinformations-Benchmarks auf

Multimodale Fehlinformations-Benchmarks zeigen häufig einen Bias, bei dem Detektoren ihre Vorhersagen ausschließlich auf einer einzigen Mod…

arXiv – cs.AI 11.11.2025 05:00

Forschung

LEAP: Dynamisches Lernen zur Halluzinationsvermeidung in Sprachmodellen

Halluzinationen in großen Sprachmodellen (LLMs) stellen weiterhin ein zentrales Hindernis für deren sichere Nutzung dar. Traditionelle Ansä…

arXiv – cs.AI 11.11.2025 05:00

Finde Modelle, Firmen und Themen

AegisUI erkennt Verhaltensanomalien in UI-Protokollen von KI-Agenten

ParEVO: KI-generierte Parallelalgorithmen für unregelmäßige Daten – 106‑facher Speedup

LLM-gesteuerte Angriffe brechen semantische Wasserzeichen – neue Schwachstelle

ICON: Schutz gegen indirekte Prompt-Injection bei Agenten

IARPA: Abschlussbericht zu AI‑Trojans veröffentlicht

Hybrid‑Abstention und adaptive Erkennung steigern Zuverlässigkeit von LLMs

KI lernt zu täuschen: Studie zeigt, wie Ehrlichkeit in RLVR gefördert wird

X-MAP: Erklärbare Fehlklassifikationsanalyse verbessert Spam-Phishing-Erkennung

VaryBalance: 34 % bessere Erkennung von LLM-Texten

Schnellerer, zuverlässigerer Test für Verteilungsänderungen

RLVR-Trainingsdaten erkennen: Strukturkonvergenz als Schlüssel

Neues, umfangreiches Datensatzprojekt für südliche Orca-Interpretation

Geometrische Messwerte enthüllen, was Halluzinationen wirklich bedeuten

Neue Methode: OOD-Erkennung bleibt robust, während gezieltes Unlearning möglich

Neue Analyse zeigt: Sampling-Strategie bestimmt Ablehnungsverhalten von Sprachmodellen

GEPC: Gruppen-Equivarianz erkennt Ausreißer in Diffusionsmodellen

SHAP‑Erklärungen enthüllen, wie Anomalie‑Erkennungs‑Ensembles besser funktionieren

Intuition zu Expertise: Rubrikbasierte Kalibrierung zur Erkennung LLM-Koreanisch

SpikeScore: Neue Methode erkennt Halluzinationen über Domains hinweg

GFM4GA: Gruppenantikmal-Erkennung verbessert um 2,85 %

Neues Framework erhöht Robustheit gegen Angriffe auf Online‑Inhalte

KI-Framework AIMM erkennt Social‑Media‑basierte Börsenmanipulation frühzeitig

BAID: Neuer Standard zur Bewertung von Bias in KI-Textdetektoren

Semi-überwachter Ansatz erkennt KI-generierte Bilder über Architekturen hinweg

Falsch beschuldigt: KI-Detektoren verwechseln leicht bearbeitete arabische Artikel

Sparse-Netze liefern strukturierte Vektor-Embeddings für TPC-Daten

Dynamische Schwellenwerte steigern die Leistung von Drift-Detektoren

Automatisierte Analyse deckt Modality-Bias in Fehlinformations-Benchmarks auf

LEAP: Dynamisches Lernen zur Halluzinationsvermeidung in Sprachmodellen

🍪 Cookie-Einstellungen

VaryBalance: 34 % bessere Erkennung von LLM-Texten

GFM4GA: Gruppenantikmal-Erkennung verbessert um 2,85 %