Forschung arXiv – cs.AI

Neues Bewertungsmodell für Phishing-Erkennung mit KI

Phishing‑E-Mails stellen weiterhin eine ernsthafte Bedrohung für die Online-Kommunikation dar, indem sie menschliches Vertrauen ausnutzen und sich an automatisierte Filter anpassen. Obwohl große Sprachmodelle wie GPT‑4…

≈1 Min. Lesezeit Originalquelle
Kernaussagen
Das nimmst du aus dem Beitrag mit
  • Phishing‑E-Mails stellen weiterhin eine ernsthafte Bedrohung für die Online-Kommunikation dar, indem sie menschliches Vertrauen ausnutzen und sich an automatisierte Filt…
  • Obwohl große Sprachmodelle wie GPT‑4 und LLaMA‑3‑8B in der Textklassifikation hervorragende Ergebnisse liefern, ist ihre Zuverlässigkeit für den Einsatz in Sicherheitsan…
  • Um diesem Bedarf gerecht zu werden, präsentiert die aktuelle Studie das Trustworthiness Calibration Framework (TCF).

Phishing‑E-Mails stellen weiterhin eine ernsthafte Bedrohung für die Online-Kommunikation dar, indem sie menschliches Vertrauen ausnutzen und sich an automatisierte Filter anpassen. Obwohl große Sprachmodelle wie GPT‑4 und LLaMA‑3‑8B in der Textklassifikation hervorragende Ergebnisse liefern, ist ihre Zuverlässigkeit für den Einsatz in Sicherheitsanwendungen noch nicht ausreichend bewertet.

Um diesem Bedarf gerecht zu werden, präsentiert die aktuelle Studie das Trustworthiness Calibration Framework (TCF). Das Framework bewertet Phishing‑Detektoren anhand von drei Kerndimensionen: Kalibrierung, Konsistenz und Robustheit. Diese Aspekte werden in einem zusammengefassten Trustworthiness Calibration Index (TCI) zusammengeführt und durch die Cross‑Dataset Stability (CDS) ergänzt, die die Stabilität der Vertrauenswürdigkeit über verschiedene Datensätze hinweg misst.

In umfangreichen Experimenten mit fünf unterschiedlichen Korpora – darunter SecureMail 2025, Phishing Validation 2024, CSDMC2010, Enron‑Spam und Nazario – wurden Modelle wie DeBERTa‑v3‑base, LLaMA‑3‑8B und GPT‑4 getestet. Die Ergebnisse zeigen, dass GPT‑4 die höchste Gesamtvertrauenswürdigkeit aufweist, gefolgt von LLaMA‑3‑8B und DeBERTa‑v3‑base. Statistische Analysen verdeutlichen, dass die Zuverlässigkeit unabhängig von der reinen Genauigkeit variiert, was die Notwendigkeit einer vertrauensorientierten Bewertung unterstreicht.

Das vorgestellte Framework bietet damit eine transparente und reproduzierbare Basis, um die Abhängigkeit von LLM‑basierten Phishing‑Erkennungssystemen realistisch einzuschätzen und ihre Einsatzfähigkeit in der Praxis zu sichern.

Einordnen in 60 Sekunden

Welche Linse du auf diese Meldung legen solltest

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

Was veraendert sich praktisch?
Ist das eher Signal, Produkt oder nur kurzfristiger Hype?
Begriffe zum Einordnen

Kontext ohne Glossar-Suche

Phishing
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Sprachmodelle
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
GPT-4
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
arXiv – cs.AI
Diese Quelle setzt den Ausgangspunkt fuer die Meldung. Pruefe immer, ob sie eher Forschung, Produktmarketing oder Praxisperspektive liefert.
Naechste Schritte

Aehnliche Entwicklungen zum Weiterlesen