KI-Agenten in den Lebenswissenschaften: Echtzeit‑Optimierung mit RL

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Eine neue Veröffentlichung auf arXiv demonstriert, wie generative KI-Agenten in den Lebenswissenschaften in Echtzeit optimiert werden können, indem sie ausschließlich aus Nutzerfeedback lernen. Das vorgestellte System kombiniert AWS Strands Agents mit Thompson‑Sampling‑Contextual‑Bandits, um die Entscheidungsfindung der Agenten kontinuierlich zu verbessern.

Traditionelle Ansätze in diesem Bereich beruhen entweder auf festen Regeln oder auf kostenintensiven, gelabelten Trainingsdaten. Beide Methoden sind wenig flexibel und passen sich nicht dynamisch an veränderte Bedingungen oder individuelle Nutzerpräferenzen an. Das neue Framework löst dieses Problem, indem es die Agenten in drei Schlüsselbereiche einteilt: die Auswahl der Generierungsstrategie (direkt vs. chain‑of‑thought), die Auswahl geeigneter Werkzeuge (Literatur‑Suche, Datenbanken, etc.) und die Zuordnung zu fachlichen Domänen (Pharmakologie, Molekularbiologie, klinische Spezialisten).

Durch umfangreiche Tests mit Lebenswissenschaftsfragen konnte das System die Nutzerzufriedenheit um 15 % bis 30 % gegenüber zufälligen Baselines steigern. Bereits nach 20 bis 30 Interaktionen zeigten sich klare Lernmuster, die die Effektivität der Agenten deutlich verbesserten. Dabei ist bemerkenswert, dass keine Ground‑Truth‑Labels erforderlich sind – die Agenten lernen ausschließlich aus dem Feedback der Nutzer.

Die Methode bietet somit eine prinzipielle Lösung für das Exploration‑Exploitation‑Dilemma in agentischen KI‑Systemen. Sie passt sich kontinuierlich an sich ändernde Nutzerpräferenzen an und ermöglicht eine effiziente, datenunabhängige Optimierung von KI-Agenten in den Lebenswissenschaften.

Ähnliche Artikel