PaperScout: Agent für Papiersuche mit sequenzbasierter Optimierung
Die Suche nach wissenschaftlichen Arbeiten ist ein zentrales Element der Forschung, doch bisherige Methoden stützen sich häufig auf starre, vorgegebene Abläufe, die bei komplexen, bedingten Anfragen versagen. PaperScout löst dieses Problem, indem es die Suche als fortlaufenden Entscheidungsprozess gestaltet. Der Agent entscheidet dynamisch, wann und wie Such- und Erweiterungswerkzeuge eingesetzt werden, basierend auf dem sich entwickelnden Kontext der Rückläufer.
Die Entwicklung solcher Agenten stellt eine besondere Herausforderung dar: Standard‑Reinforcement‑Learning‑Ansätze, die für Einzelschritte konzipiert sind, stoßen bei mehrstufigen Interaktionen an ihre Grenzen. Hier führt PaperScout die Proximal Sequence Policy Optimization (PSPO) ein, eine sequentielle Optimierungsmethode, die die Lernschritte exakt an die Interaktionen zwischen Agent und Umgebung anpasst. Dadurch wird die Zuordnung von Belohnungen präziser und die Lernrate deutlich verbessert.
Umfangreiche Tests an synthetischen und realen Datensätzen zeigen, dass PaperScout die Leistung von etablierten, regelbasierten Workflows sowie von herkömmlichen RL‑Modellen in Bezug auf Trefferquote und Relevanz deutlich übertrifft. Die Ergebnisse bestätigen, dass ein adaptiver, agentenbasierter Ansatz in Kombination mit PSPO die Zukunft der akademischen Papiersuche gestalten kann.