Reinforcement Learning optimiert Sprachmodelle für erklärbare Kreditkartenbetrugserkennung
Online‑Handelsplattformen und Zahlungsanbieter sehen sich zunehmend raffinierten Betrugsschlägen ausgesetzt, die von Identitätsdiebstahl über Kontoverwaltungen bis hin zu komplexen Geldwäscheoperationen reichen. Trotz ihres theoretischen Potenzials bleiben große Sprachmodelle (LLMs) bislang kaum in realen Finanzumgebungen zum Betrugsschutz eingesetzt.
In einer neuen Studie wird ein innovativer Ansatz vorgestellt, bei dem Reinforcement Learning (RL) genutzt wird, um leichte Sprachmodelle gezielt für die Erkennung von Kreditkartenbetrug zu trainieren – und das ausschließlich mit rohen Transaktionsdaten. Der Algorithmus Group Sequence Policy Optimization (GSPO) wird mit einem regelbasierten Belohnungssystem kombiniert, um die Modelle auf einem echten Transaktionsdatensatz eines chinesischen Zahlungsdienstleisters zu verfeinern.
Durch das RL‑Framework lernen die Modelle, vielfältige Vertrauens‑ und Risikosignale in den Textdaten zu erkennen, darunter Muster in Kundeninformationen, Versanddetails, Produktbeschreibungen und Bestellhistorie. Die experimentellen Ergebnisse zeigen deutliche Verbesserungen der F1‑Scores auf unabhängigen Testsets, was die praktische Wirksamkeit von LLMs im Betrugsschutz unterstreicht.