Suche nach Interpretability

BioLLMAgent: Hybrid vereint Interpretierbarkeit und realistische Entscheidungen

In der Computational Psychiatry besteht seit langem ein Spannungsfeld zwischen Modellen, die leicht zu verstehen sind, und solchen, die men…

arXiv – cs.AI 06.03.2026 05:00

Forschung

REFINE: Vorverarbeitung macht psychiatrische Fragebögen interpretierbar

Psychiatrische Fragebögen sind stark kontextabhängig und liefern oft nur schwache Vorhersagen für das spätere Symptomaufkommen. Das erschwe…

arXiv – cs.LG 02.03.2026 05:00

Forschung

MINAR: Mechanistische Interpretierbarkeit für neuronale algorithmische Logik

Neuer Ansatz MINAR (Mechanistische Interpretierbarkeit für neuronale algorithmische Argumentation) eröffnet einen klaren Blick in die Funkt…

arXiv – cs.LG 26.02.2026 05:00

Forschung

LLMs entschlüsseln kognitive Komplexität: Bloom's Taxonomy im Fokus

Die Forschung hat ein neues Verfahren vorgestellt, das die „Black‑Box“-Natur großer Sprachmodelle aufbricht. Durch die Anwendung von Bloom’…

arXiv – cs.AI 20.02.2026 05:00

Forschung

Neues Verfahren liefert nachweisbare, robuste Schaltkreise in neuronalen Netzen

In einem bahnbrechenden Beitrag zur mechanistischen Interpretierbarkeit von neuronalen Netzwerken wird ein automatisiertes Verfahren vorges…

arXiv – cs.LG 20.02.2026 05:00

Forschung

<h1>Prompt‑spezifische Schaltkreise in Sprachmodellen entdeckt – neue Analysemethode</h1> <p>Die interne Funktionsweise von Sprachmodellen bleibt ein zentrales Rätsel der Mechanistic‑Interpretability. Traditionell werden Schaltkreise auf Aufgabenebene identifiziert, indem viele Prompts gemittelt werden. Diese Vorgehensweise setzt voraus, dass es pro Aufgabe nur ein stabiles Mechanismus‑Set gibt – ein Ansatz, der wichtige Strukturen verschleiert.</p> <p>In einer neuen Studie wird gezeigt, dass Schaltkreise t

arXiv – cs.LG 17.02.2026 05:00

Forschung

Federated Learning nichtlineare Zeitreihen: Analyse mit Graph Attention <p>In modernen Industrieanlagen werden zahlreiche Subsysteme von verteilten Sensoren überwacht. Jedes Subsystem erzeugt hochdimensionale Zeitreihen, die oft stark miteinander verknüpft sind. Um die zeitlichen Muster eines Subsystems im Kontext der anderen zu verstehen, ist es entscheidend, die Interdependenzen zu erfassen – ein Ziel, das in dezentralen Umgebungen besonders schwierig ist, weil Rohdaten nicht geteilt werden dürfen und d

arXiv – cs.LG 17.02.2026 05:00

Forschung

BONSAI: Bayesian Optimization, die Standardkonfigurationen respektiert

Die neue Methode BONSAI erweitert die klassische Bayesian Optimization um ein bewusstes Rückhaltprinzip: Sie schneidet unwichtige Abweichun…

arXiv – cs.LG 10.02.2026 05:00

Forschung

Momentum Attention: Physikbasierter Ansatz für In‑Context‑Lernen

Das Mechanistic Interpretability‑Programm hat den Transformer bereits als präzises Rechengraphen‑Modell abgebildet. In der neuesten Veröff…

arXiv – cs.LG 06.02.2026 05:00

Aktuell

Goodfire AI startet Interpretability Frontier Lab – Myra Deng & Mark Bissell

Goodfire AI hat das erste Mechanistic Interpretability Frontier Lab ins Leben gerufen, bei dem Myra Deng und Mark Bissell die Hauptakteure…

Latent Space 05.02.2026 20:45

Forschung

Strokes als Rosetta Stone: Neue Methode zur Interpretation von Sprachmodellen

Die Leistungsfähigkeit großer Sprachmodelle (LLMs) ist unbestreitbar, doch bleibt die Frage, welche internen Komponenten wirklich für die S…

arXiv – cs.LG 05.02.2026 05:00

Forschung

Selbstreflexion bekämpft Korrelationen in Graph-Interpretierbarkeit

Die Interpretation von Graphen ist ein zentrales Thema in der modernen KI-Forschung. Ziel ist es, die Knoten und Kanten zu identifizieren…

arXiv – cs.LG 19.01.2026 05:00

Forschung

RobuMTL: Mehr Robustheit im Multi-Task Learning bei widrigen Wetterbedingungen

Robustness in Machine Learning (ML) is a critical aspect that ensures models perform reliably under various conditions, including data shif…

arXiv – cs.AI 19.01.2026 05:00

Forschung

<h1>LLMs im Angesicht von „Adversarial Tales“: Neue Angriffe nutzen Cyberpunk‑Erzählungen</h1> <p>Die Sicherheitsmechanismen großer Sprachmodelle bleiben anfällig für Angriffe, die schädliche Anfragen in kulturell kodierte Strukturen einbetten. In einer neuen Studie wird die Technik „Adversarial Tales“ vorgestellt, ein Jailbreak, der gefährliche Inhalte in Cyberpunk‑Narrationen verpackt und die Modelle dazu bringt, diese als legitime Erzählinterpretationen zu analysieren.</p> <p>Durch die Umwandlung der Auf

arXiv – cs.AI 15.01.2026 05:00

Forschung

TabPFN im Fokus: Aufdeckung der inneren Funktionsweise tabellarischer Modelle

Eine neue Untersuchung von TabPFN, einem führenden tabellarischen Foundational Model, liefert erstmals tiefe Einblicke in die Art und Weise…

arXiv – cs.LG 14.01.2026 05:00

Aktuell

Mechanistische Interpretierbarkeit: 10 bahnbrechende Technologien 2026

Jeden Tag nutzen Millionen Menschen weltweit Chatbots, doch die dahinterstehenden großen Sprachmodelle bleiben ein Rätsel. Trotz ihrer enor…

MIT Technology Review – Artificial Intelligence 12.01.2026 11:00

Forschung

Quantum-gestützte KI für O‑RAN: Hierarchische Bedrohungserkennung <p>Open Radio Access Networks (O‑RAN) bieten zwar mehr Modularität und detailliertere Telemetrie, öffnen aber gleichzeitig ein größeres Angriffs‑Viertel. Ein neues Forschungsprojekt präsentiert dafür ein dreistufiges Verteidigungsframework, das exakt auf die Telemetrie‑Schichten von O‑RAN abgestimmt ist. Die erste Ebene erkennt anomale Muster, die zweite bestätigt gezielt Angriffe und die dritte klassifiziert mehrere Angriffsarten gleichzei

arXiv – cs.AI 18.12.2025 05:00

Forschung

Predictive Concept Decoders: Skalierbare, end-to-end KI-Interpretierbarkeit

Ein neues arXiv‑Veröffentlichung (2512.15712v1) präsentiert einen innovativen Ansatz, der die Interpretation von neuronalen Netzwerken in d…

arXiv – cs.AI 18.12.2025 05:00

Forschung

Neues Paper zeigt: Entanglement bleibt trotz Feature‑Engineering bestehen

Ein kürzlich veröffentlichtes arXiv‑Paper (2512.15134v1) untersucht, ob gängige Interpretationsmethoden wie sparse Autoencoder (SAE) und sp…

arXiv – cs.LG 18.12.2025 05:00

Forschung

Erklärbare KI für smarte Gewächshäuser: Temporal Fusion Transformer im IoRT

Die Integration des Internet der Robotischen Dinge (IoRT) in moderne Gewächshäuser hat die Präzisionslandwirtschaft revolutioniert, indem s…

arXiv – cs.LG 16.12.2025 05:00

Forschung

HOLE: Topologische Analyse enthüllt neuronale Netzwerke

Deep‑Learning‑Modelle haben in den letzten Jahren in vielen Bereichen beeindruckende Erfolge erzielt, doch ihre internen Repräsentationen u…

arXiv – cs.LG 10.12.2025 05:00

Forschung

Neuer Actor-Critic-Algorithmus verbindet Interpretierbarkeit mit Optimierung

Ein neuer Ansatz im Bereich des Reinforcement Learning, der die bisherige Lücke zwischen Optimierung und Erklärbarkeit schließt, wurde auf…

arXiv – cs.LG 08.12.2025 05:00

Forschung

Neue Theorie beleuchtet Sparse Dictionary Learning in KI-Interpretierbarkeit

Mit der rasanten Leistungssteigerung von KI-Modellen wächst die Notwendigkeit, zu verstehen, welche Repräsentationen sie lernen und wie sie…

arXiv – cs.LG 08.12.2025 05:00

Forschung

<p>Ethik in LLM-Multi-Agent-Systemen: Mechanistische Interpretierbarkeit</p> <p>Große Sprachmodelle (LLMs) werden zunehmend als autonome Agenten eingesetzt, die in Multi-Agent-Systemen zusammenarbeiten. Diese Systeme versprechen zwar, die Leistungsfähigkeit zu steigern und komplexe Aufgaben zu lösen, bringen jedoch erhebliche ethische Fragen mit sich. In einem neuen Positionspapier wird ein Forschungsrahmen vorgestellt, der darauf abzielt, die ethische Verhaltensweise solcher Systeme zu sichern.</p> <p>Der

arXiv – cs.AI 05.12.2025 05:00

Forschung

KI-Modelle entschlüsseln verschlüsselte Logik – Logit Lens zeigt Durchbruch

Mit der wachsenden Leistungsfähigkeit großer Sprachmodelle steigt die Sorge, dass diese Systeme eigene Denkprozesse entwickeln könnten, die…

arXiv – cs.AI 02.12.2025 05:00

Forschung

<p>EBM verbessert: Neue Methoden steigern Erklärbarkeit und Fairness</p> <p>Ein neues arXiv-Papier präsentiert drei gezielte Verbesserungen für das Explainable Boosting Machine (EBM), ein führendes Glasbox-Modell, das sowohl hohe Genauigkeit als auch vollständige Transparenz bietet. Die Autoren kombinieren bayessche Hyperparameter‑Optimierung, eine maßgeschneiderte Mehrzielfunktion zur Förderung von Fairness und ein selbstüberwachtes Pre‑Training für Kaltstart‑Szenarien.</p> <p>Die Ansätze wurden auf den St

arXiv – cs.LG 02.12.2025 05:00

Forschung

Konzeptbasierte Erklärungen verbessern die Erkennung toxischer Sprache

Die rasante Verbreitung von Social‑Media hat nicht nur die Kommunikation erleichtert, sondern auch die Verbreitung schädlicher Inhalte besc…

arXiv – cs.AI 24.11.2025 05:00

Forschung

Interpretierbares Framework für verantwortungsvolle synthetische Daten in emotionalen Texten

Emotionserkennung in sozialen Medien ist entscheidend, um die öffentliche Stimmung zu verstehen. Gleichzeitig sind die Kosten für API-Zugri…

arXiv – cs.LG 21.11.2025 05:00

Forschung

Fein abgestufte Erklärungen: Gegenfaktische Analyse für Fehlklassifikationen

In der Bildinterpretation liefern Attribution‑basierte Erklärungen wichtige Muster, doch sie bleiben oft zu grob, wenn es um feine Details…

arXiv – cs.AI 12.11.2025 05:00

Forschung

Neues 5D-Framework erklärt Black-Box-Modelle im Kreditrisiko

Die Finanzwelt steht vor einer großen Herausforderung: Wie lassen sich hochpräzise Machine‑Learning‑Modelle mit den Anforderungen an Transp…

arXiv – cs.LG 10.11.2025 05:00

Finde Modelle, Firmen und Themen

BioLLMAgent: Hybrid vereint Interpretierbarkeit und realistische Entscheidungen

REFINE: Vorverarbeitung macht psychiatrische Fragebögen interpretierbar

MINAR: Mechanistische Interpretierbarkeit für neuronale algorithmische Logik

LLMs entschlüsseln kognitive Komplexität: Bloom's Taxonomy im Fokus

Neues Verfahren liefert nachweisbare, robuste Schaltkreise in neuronalen Netzen

BONSAI: Bayesian Optimization, die Standardkonfigurationen respektiert

Momentum Attention: Physikbasierter Ansatz für In‑Context‑Lernen

Goodfire AI startet Interpretability Frontier Lab – Myra Deng & Mark Bissell

Strokes als Rosetta Stone: Neue Methode zur Interpretation von Sprachmodellen

Selbstreflexion bekämpft Korrelationen in Graph-Interpretierbarkeit

RobuMTL: Mehr Robustheit im Multi-Task Learning bei widrigen Wetterbedingungen

TabPFN im Fokus: Aufdeckung der inneren Funktionsweise tabellarischer Modelle

Mechanistische Interpretierbarkeit: 10 bahnbrechende Technologien 2026

Predictive Concept Decoders: Skalierbare, end-to-end KI-Interpretierbarkeit

Neues Paper zeigt: Entanglement bleibt trotz Feature‑Engineering bestehen

Erklärbare KI für smarte Gewächshäuser: Temporal Fusion Transformer im IoRT

HOLE: Topologische Analyse enthüllt neuronale Netzwerke

Neuer Actor-Critic-Algorithmus verbindet Interpretierbarkeit mit Optimierung

Neue Theorie beleuchtet Sparse Dictionary Learning in KI-Interpretierbarkeit

KI-Modelle entschlüsseln verschlüsselte Logik – Logit Lens zeigt Durchbruch

Konzeptbasierte Erklärungen verbessern die Erkennung toxischer Sprache

Interpretierbares Framework für verantwortungsvolle synthetische Daten in emotionalen Texten

Fein abgestufte Erklärungen: Gegenfaktische Analyse für Fehlklassifikationen

Neues 5D-Framework erklärt Black-Box-Modelle im Kreditrisiko

🍪 Cookie-Einstellungen