Neuer Algorithmus ATPO: Adaptive Tree Policy Optimierung steigert medizinische Dialoge
Ein neuer Ansatz namens Adaptive Tree Policy Optimization (ATPO) verspricht, die Qualität von medizinischen Dialogen deutlich zu verbessern. Durch die gezielte Nutzung von Unsicherheitsmaßen, die sowohl den Bellman‑Fehler als auch die Varianz der Aktionswerte berücksichtigen, kann ATPO die Rollout‑Ressourcen effizient auf die kritischsten Zustände verteilen. Dadurch werden die Wertschätzungen präziser und die Exploration abwechslungsreicher.
Der Algorithmus wurde in einem hierarchischen Markov‑Entscheidungsprozess (H‑MDP) formuliert, um die Unsicherheit in Interaktionen zwischen Patienten und Sprachmodellen zu adressieren. Traditionelle Reinforcement‑Learning‑Methoden wie Group Relative Policy Optimization (GRPO) und Proximal Policy Optimization (PPO) stoßen hier an ihre Grenzen – GRPO kämpft mit langen Zeithorizonten, während PPO instabile Wertschätzungen liefert.
Um die hohe Rechenlast von baumbasierten RL‑Methoden zu reduzieren, kombiniert ATPO zwei Optimierungen: ein Unsicherheits‑gesteuertes Pruning, das die Anzahl der Rollouts minimiert, und eine asynchrone Sucharchitektur, die KV‑Cache‑Wiederverwendung nutzt, um die Inferenzgeschwindigkeit zu maximieren.
In umfangreichen Tests auf drei öffentlichen medizinischen Dialog‑Benchmarks übertraf ATPO mehrere starke Baselines. Besonders hervorzuheben ist, dass das Qwen3‑8B‑Modell, ein viel kleineres Modell, die Leistung von GPT‑4o um 0,92 % übertraf – ein bemerkenswertes Ergebnis für die medizinische KI‑Forschung.