Suche nach Audit | meineki.news

DBC-Benchmark: Neue Governance-Schicht senkt Risiko bei LLMs um 36,8 % In einer neuen Studie wurde der Dynamic Behavioral Constraint (DBC) Benchmark vorgestellt – das erste empirische Verfahren, um die Wirksamkeit einer strukturierten, 150‑Kontroll‑Governance‑Schicht für große Sprachmodelle (LLMs) zu messen. Die Schicht, genannt MDBC (Madan DBC), wird während der Inferenz angewendet und ist unabhängig vom Modell, lässt sich an verschiedene Rechtsordnungen anpassen und ist auditierbar. Der D

arXiv – cs.AI 06.03.2026 05:00

MedCalc-Bench: Benchmark misst nicht, was erwartet – Open‑Book liefert 85 %

Der bislang populäre MedCalc‑Bench, der die Leistungsfähigkeit von Sprachmodellen bei klinischen Rechenaufgaben misst, liefert laut einer n…

arXiv – cs.LG 04.03.2026 05:00

Forschung

Neues Framework zur reproduzierbaren Bewertung logischer Reasoning-Agenten

Ein neu entwickeltes Bewertungsframework ermöglicht die systematische und nachvollziehbare Prüfung von logischen Reasoning-Agenten. Es legt…

arXiv – cs.AI 04.03.2026 05:00

Aktuell

KI-Auditor: Wie die neue Rolle Modellverhalten überwacht

KI-Auditoren sind die neueste Generation von Prüfern, die sich nicht mehr ausschließlich auf finanzielle Transaktionen konzentrieren, sonde…

ZDNet – Artificial Intelligence 28.02.2026 10:00

Forschung

Neues Bewertungsframework für KI-Agenten in AutoML-Pipelines

Agentenbasierte AutoML-Systeme setzen große Sprachmodelle ein, um komplexe, mehrstufige Entscheidungen zu treffen – von der Datenvorverarbe…

arXiv – cs.AI 27.02.2026 05:00

Forschung

ACAR: Adaptive Routing für Multi-Model-Ensemble mit auditierbarem Entscheidungsweg

ACAR (Adaptive Complexity and Attribution Routing) ist ein neues Messframework, das die Orchestrierung mehrerer KI‑Modelle unter vollständi…

arXiv – cs.AI 26.02.2026 05:00

Forschung

Neues Verfahren garantiert stabile Mechanismen in neuronalen Netzen

Verstehen, wie neuronale Netzwerke ihre Vorhersagen treffen, ist entscheidend für Debugging, Auditing und den Einsatz in der Praxis. Die me…

arXiv – cs.AI 27.02.2026 05:00

Forschung

ProactiveMobile: Benchmark für proaktive Intelligenz auf mobilen Geräten

In der Welt der multimodalen großen Sprachmodelle (MLLMs) hat die Entwicklung von mobilen Agenten bisher vor allem ein reaktives Paradigma…

arXiv – cs.AI 26.02.2026 05:00

Forschung

KI-Analysten erzeugen vielfältige Forschungsergebnisse – neue Studie zeigt

Eine kürzlich veröffentlichte Arbeit auf arXiv (2602.18710v1) demonstriert, wie autonome KI-Analysten, die auf großen Sprachmodellen (LLMs)…

arXiv – cs.AI 24.02.2026 05:00

Forschung

Unüberwachtes Lernen: Sensitive Attribute bleiben in Embeddings verborgen

Ein neues arXiv‑Veröffentlichung zeigt, dass selbst vollständig unüberwachtes Lernen keine neutrale Darstellung von sensiblen Merkmalen wie…

arXiv – cs.AI 23.02.2026 05:00

Forschung

JAX-Privacy: Neue Bibliothek für effizientes, privates maschinelles Lernen

Die auf arXiv veröffentlichte Bibliothek JAX-Privacy vereinfacht die Implementierung robuster und leistungsfähiger Mechanismen für das diff…

arXiv – cs.LG 23.02.2026 05:00

Praxis

VectifyAI: Mafin 2.5 & PageIndex liefern 98,7 % Genauigkeit bei Finanz‑RAG

VectifyAI hat heute die neueste Version seiner Retrieval‑Augmented‑Generation‑Tools vorgestellt: Mafin 2.5 und PageIndex. Beide Produkte se…

MarkTechPost 23.02.2026 04:00

Forschung

NeuDiff Agent beschleunigt Kristallanalyse um 5‑fach bei Neutronenkrystallographie

Große Forschungsanlagen stehen zunehmend vor Verzögerungen bei der Analyse und Berichterstattung, besonders bei strukturell und magnetisch…

arXiv – cs.AI 20.02.2026 05:00

Praxis

Transparente KI-Agenten: Nachvollziehbare Entscheidungen mit Audit‑Trails

In diesem Tutorial wird gezeigt, wie man einen vollständig transparenten KI‑Agenten entwickelt, bei dem jede Entscheidung nachvollziehbar…

MarkTechPost 20.02.2026 06:28

Forschung

Neues KI-System übertrifft GPT-5 bei Endokrinologie-Boardprüfung

Ein neu entwickeltes KI-System namens Mirror hat bei einer 120-Fragen-Boardprüfung im Bereich Endokrinologie die Leistung von führenden Spr…

arXiv – cs.AI 19.02.2026 05:00

Forschung

Sicheres klinisches NLP: Vermeidung von zeitlicher Leckage bei Entlassungsprognosen

In der klinischen Textverarbeitung zeigen moderne NLP‑Modelle großes Potenzial, um die Entlassungsplanung von Patienten zu unterstützen. Do…

arXiv – cs.AI 19.02.2026 05:00

Forschung

AST-PAC: Syntaxbasierte Methode verbessert Auditing von Code‑Modellen In der Welt der Code‑Large‑Language‑Models (LLMs) entstehen durch die Nutzung großer, oft lizenzbeschränkter Datensätze erhebliche Herausforderungen im Bereich Datengovernance und Urheberrecht. Membership‑Inference‑Attacks (MIAs) bieten hier einen vielversprechenden Ansatz, um unautorisierte Datenverwendung aufzudecken. Während die klassische Loss‑Attack als Basis dient, bleibt die Polarized Augment Calibration (PAC) im

arXiv – cs.AI 17.02.2026 05:00

Forschung

AgentLeak: Benchmark deckt massive Datenschutzlücken in Multi-Agent-LLM-Systemen auf

Ein neues Benchmark-Tool namens AgentLeak hat die Schwachstellen von Multi-Agent-LLM-Systemen aufgedeckt, die bisher von herkömmlichen Prüf…

arXiv – cs.AI 13.02.2026 05:00

Forschung

scPilot: KI-gestützte Analyse von Einzelzellen – neue Wege in der Genomik

Mit scPilot eröffnet ein neues Kapitel in der Analyse von Einzelzell-Genomdaten. Das System nutzt ein großes Sprachmodell, das in natürlich…

arXiv – cs.AI 13.02.2026 05:00

Forschung

Neues Verfahren: Vektoren‑zu‑Graphen‑Umwandlung verbessert Schemata-Überprüfung

Ein innovatives Verfahren aus der Forschungsliteratur verspricht, die Schwächen moderner multimodaler Sprachmodelle bei der Analyse von tec…

arXiv – cs.AI 13.02.2026 05:00

Forschung

Auditierung von Multi-Agenten-LLM-Denkbäumen übertrifft Mehrheitsabstimmung In der Forschung zu Multi-Agenten-Systemen (MAS) wird die Rechenkraft großer Sprachmodelle (LLMs) häufig durch die Zusammenarbeit mehrerer Agenten erweitert. Dennoch setzen die meisten Ansätze noch immer auf eine einfache Mehrheitsabstimmung, um die einzelnen Agentenausgaben zu aggregieren. Diese Heuristik ignoriert jedoch die eigentliche Beweiskette der einzelnen Denkpfade und ist besonders anfällig, wenn die Agenten zu einer

arXiv – cs.AI 11.02.2026 05:00

Forschung

Neue Methode für stabiles Machine Unlearning dank statistischer Roughness

In der KI-Welt wird Machine Unlearning immer wichtiger, wenn Modelle gezielt bestimmte Datenpunkte „vergessen“ sollen, ohne dabei ihre Leis…

arXiv – cs.LG 11.02.2026 05:00

Forschung

Strategische Ressourcenallokation: Spieltheoretische KI‑Sicherheitsansatz

Mit der zunehmenden Autonomie von KI‑Systemen wird die Gewährleistung ihrer Sicherheit nicht mehr ausschließlich durch die Optimierung der…

arXiv – cs.AI 10.02.2026 05:00

Forschung

Split Personality Training enthüllt versteckte Wissenslücken in Sprachmodellen

Die Erkennung von Fehlverhalten in großen Sprachmodellen bleibt ein zentrales Problem, weil diese Modelle oft lernen, Missstände während de…

arXiv – cs.AI 06.02.2026 05:00

Forschung

ControlG: Feedback‑gesteuerte Zeitplanung verbessert Multi‑Objective Graph‑SSL

In der Welt der graphbasierten selbstüberwachten Lernverfahren (SSL) stehen Forscher vor einer großen Herausforderung: Wie lassen sich mehr…

arXiv – cs.LG 06.02.2026 05:00

Forschung

Neues Tool bewertet Maskenqualität bei sprachgesteuerter Audio-Visual-Segmentierung

In einer wegweisenden Veröffentlichung stellt ein Forschungsteam ein neues Verfahren vor, das die Qualität von Segmentierungsmasken in spra…

arXiv – cs.AI 05.02.2026 05:00

Forschung

Kettenlogik entlarvt: Modelle umgehen rationale Erklärungen

In einer neuen Untersuchung auf arXiv wird die weit verbreitete Annahme in Frage gestellt, dass Chain‑of‑Thought (CoT) Prompting tatsächlic…

arXiv – cs.LG 05.02.2026 05:00

Forschung

CreditAudit: Zweite Dimension für die Bewertung und Auswahl von LLMs

Die Scores von Leaderboards steigen stetig, doch sie spiegeln oft nicht die tägliche Nutzererfahrung wider. Während Benchmarks sich annäher…

arXiv – cs.AI 04.02.2026 05:00

Forschung

Sybil-Modelle: Interventionsbasierte Audits decken Lungenkrebs‑Risiken auf

Lungenkrebs bleibt die häufigste Todesursache bei Krebserkrankungen und treibt die Entwicklung automatisierter Screening‑Tools an, um Radio…

arXiv – cs.LG 04.02.2026 05:00

Forschung

OGD4All: KI-Tool für transparente Interaktion mit geographischen Open-Data

OGD4All ist ein neues, transparentes und auditierbares Framework, das große Sprachmodelle (LLMs) einsetzt, um Bürgern den Zugang zu geograp…

arXiv – cs.LG 03.02.2026 05:00

Finde Modelle, Firmen und Themen

MedCalc-Bench: Benchmark misst nicht, was erwartet – Open‑Book liefert 85 %

Neues Framework zur reproduzierbaren Bewertung logischer Reasoning-Agenten

KI-Auditor: Wie die neue Rolle Modellverhalten überwacht

Neues Bewertungsframework für KI-Agenten in AutoML-Pipelines

ACAR: Adaptive Routing für Multi-Model-Ensemble mit auditierbarem Entscheidungsweg

Neues Verfahren garantiert stabile Mechanismen in neuronalen Netzen

ProactiveMobile: Benchmark für proaktive Intelligenz auf mobilen Geräten

KI-Analysten erzeugen vielfältige Forschungsergebnisse – neue Studie zeigt

Unüberwachtes Lernen: Sensitive Attribute bleiben in Embeddings verborgen

JAX-Privacy: Neue Bibliothek für effizientes, privates maschinelles Lernen

VectifyAI: Mafin 2.5 & PageIndex liefern 98,7 % Genauigkeit bei Finanz‑RAG

NeuDiff Agent beschleunigt Kristallanalyse um 5‑fach bei Neutronenkrystallographie

Transparente KI-Agenten: Nachvollziehbare Entscheidungen mit Audit‑Trails

Neues KI-System übertrifft GPT-5 bei Endokrinologie-Boardprüfung

Sicheres klinisches NLP: Vermeidung von zeitlicher Leckage bei Entlassungsprognosen

AgentLeak: Benchmark deckt massive Datenschutzlücken in Multi-Agent-LLM-Systemen auf

scPilot: KI-gestützte Analyse von Einzelzellen – neue Wege in der Genomik

Neues Verfahren: Vektoren‑zu‑Graphen‑Umwandlung verbessert Schemata-Überprüfung

Neue Methode für stabiles Machine Unlearning dank statistischer Roughness

Strategische Ressourcenallokation: Spieltheoretische KI‑Sicherheitsansatz

Split Personality Training enthüllt versteckte Wissenslücken in Sprachmodellen

ControlG: Feedback‑gesteuerte Zeitplanung verbessert Multi‑Objective Graph‑SSL

Neues Tool bewertet Maskenqualität bei sprachgesteuerter Audio-Visual-Segmentierung

Kettenlogik entlarvt: Modelle umgehen rationale Erklärungen

CreditAudit: Zweite Dimension für die Bewertung und Auswahl von LLMs

Sybil-Modelle: Interventionsbasierte Audits decken Lungenkrebs‑Risiken auf

OGD4All: KI-Tool für transparente Interaktion mit geographischen Open-Data

🍪 Cookie-Einstellungen

MedCalc-Bench: Benchmark misst nicht, was erwartet – Open‑Book liefert 85 %

VectifyAI: Mafin 2.5 & PageIndex liefern 98,7 % Genauigkeit bei Finanz‑RAG