COOL-MC: RL-Strategien für Thrombozytenlagerung verifizieren und erklären

arXiv – cs.AI Original ≈2 Min. Lesezeit
Anzeige

Thrombozyten verfallen innerhalb von fünf Tagen – ein kurzer Zeitrahmen, der Blutbanken vor die Herausforderung stellt, täglich unvorhersehbare Nachfragen zu bedienen, ohne dabei zu viel zu verschwenden oder lebenswichtige Engpässe zu riskieren. Reinforcement‑Learning (RL) kann dabei helfen, optimale Bestellstrategien zu erlernen, doch die daraus resultierenden neuronalen Modelle bleiben oft undurchsichtig.

Mit dem Tool COOL‑MC wird diese Black‑Box-Problemstellung angegangen. Das System kombiniert RL mit probabilistischer Modellprüfung und erklärbarer RL, um eine trainierte Politik für die Verwaltung von Thrombozytenbeständen zu verifizieren und zu erläutern. Dabei wird ein auf der Politik basierender diskreter Zeit‑Markov‑Kette erzeugt, die ausschließlich erreichbare Zustände enthält, um Speicherbedarf zu minimieren.

Die Analyse bestätigt, dass die Politik innerhalb eines 200‑Schritte‑Horizonts eine Stockout‑Wahrscheinlichkeit von 2,9 % und eine Überbestands‑Wahrscheinlichkeit von 1,1 % erreicht. Interessanterweise richtet sich die Entscheidungshilfe primär nach dem Altersverteilung der Lagerbestände, während Faktoren wie Wochentag oder ausstehende Aufträge weniger Einfluss haben.

Eine Erreichbarkeits‑Analyse der Aktionen zeigt, dass die Politik eine vielfältige Nachschubstrategie nutzt: Die meisten Bestellmengen werden schnell erreicht, während einige Mengen gar nicht gewählt werden. Durch Gegenfaktikanalysen lässt sich zudem erkennen, dass das Ersetzen von mittelgroßen bis großen Bestellungen durch kleinere Mengen die Sicherheitskennzahlen nahezu unverändert lässt – ein Hinweis darauf, dass die Politik in gut gepolsterten Bestandszuständen agiert.

Dies ist die erste formale Verifikation und Erklärung einer RL‑Politik im Bereich der Thrombozytenlagerung und demonstriert, wie Transparenz und Sicherheit in kritischen Gesundheitsanwendungen gewährleistet werden können.