KI-Modelle versagen bei islamischem Recht: 68 % Genauigkeit, 21 % Halluzination

Kernaussagen

Das nimmst du aus dem Beitrag mit

Mit der rasanten Verbreitung von Sprachmodellen wie GPT, Claude und DeepSeek wenden sich Millionen von Muslimen zunehmend an diese Systeme, um religiöse Fragen zu klären.
Dabei stellt sich die zentrale Frage: Können KI‑Modelle zuverlässig über islamisches Recht nachdenken?
Die neue Studie „IslamicLegalBench“ liefert die erste Antwort.

Mit der rasanten Verbreitung von Sprachmodellen wie GPT, Claude und DeepSeek wenden sich Millionen von Muslimen zunehmend an diese Systeme, um religiöse Fragen zu klären. Dabei stellt sich die zentrale Frage: Können KI‑Modelle zuverlässig über islamisches Recht nachdenken?

Die neue Studie „IslamicLegalBench“ liefert die erste Antwort. Das Benchmark‑Set umfasst 718 Aufgaben, die 13 unterschiedliche Testfälle in sieben islamischen Rechtsordnungen abdecken. Damit wird ein umfassendes Bild der Leistungsfähigkeit moderner LLMs im Bereich der islamischen Rechtswissenschaft geschaffen.

Bei der Bewertung von neun hochmodernen Modellen zeigte sich ein alarmierendes Ergebnis: Das bestplatzierte Modell erreichte lediglich 68 % korrekte Antworten und erzeugte 21 % Halluzinationen. Mehrere Modelle lagen unter 35 % Genauigkeit und überschritten dabei 55 % Halluzinationen. Auch das Few‑Shot‑Prompting brachte nur minimale Verbesserungen – bei zwei Modellen mehr als ein Prozent.

Die Fehlerhäufung ist besonders bei Aufgaben mittlerer Komplexität spürbar, während bei hochkomplexen Fragen die Modelle durch semantisches Denken teilweise überzeugend wirken. Ein Test zur Erkennung falscher Prämissen zeigte jedoch, dass sechs der neun Modelle bei über 40 % der Fälle irreführende Annahmen akzeptierten, was auf eine gefährliche „Sycophancy“ hinweist. Diese Ergebnisse verdeutlichen, dass reine Prompt‑Techniken die fehlende Basiskenntnis nicht kompensieren können.

IslamicLegalBench bietet damit einen systematischen Rahmen, um die Rechtskompetenz von KI im islamischen Kontext zu prüfen. Die Studie legt die kritischen Lücken offen, die in einer Zeit, in der immer mehr Menschen auf KI für spirituelle Orientierung zurückgreifen, dringend adressiert werden müssen.

Einordnen in 60 Sekunden

Welche Linse du auf diese Meldung legen solltest

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

Was veraendert sich fuer Nutzer oder Builder konkret?

Ist das ein nachhaltiger Trend oder nur ein kurzes Signal?

Begriffe zum Einordnen

Kontext ohne Glossar-Suche

arXiv – cs.AI

Diese Quelle setzt den Ausgangspunkt fuer die Meldung. Pruefe immer, ob sie eher Forschung, Produktmarketing oder Praxisperspektive liefert.

Lernpfad

Wenn du nach dieser Meldung weiterlernen willst

Start

Zum KI-Archiv

Gehe von dieser Meldung in Themen, Analysen und weitere News, um ein belastbareres Gesamtbild aufzubauen.

Welche Linse du auf diese Meldung legen solltest

Kontext ohne Glossar-Suche

Wenn du nach dieser Meldung weiterlernen willst

🍪 Cookie-Einstellungen