MuISQA: Retrieval-gestützte Mehrintentionen für wissenschaftliche Fragen
Wissenschaftliche Fragestellungen sind oft vielschichtig: Man muss nicht nur Gene mutieren, sondern auch deren Zusammenhang zu Krankheiten herausfinden. Traditionelle Retrieval‑Augmented‑Generation‑Modelle (RAG) sind dafür meist auf einen einzigen Intent ausgelegt und liefern dadurch unvollständige Belege. Das neue MuISQA‑Benchmark‑Set prüft genau diese Schwäche, indem es RAG‑Systeme auf die Abdeckung heterogener Beweismaterialien über mehrere Unterfragen hinweg testet.
Um diese Herausforderung zu meistern, schlägt die Studie ein Intent‑bewusstes Retrieval‑Framework vor. Zunächst nutzt ein großes Sprachmodell (LLM) Hypothesen zu möglichen Antworten. Diese Hypothesen werden anschließend in intent‑spezifische Suchanfragen zerlegt, sodass für jede Intention passende Textfragmente aus unterschiedlichen Quellen gezogen werden können. Durch die anschließende Aggregation und Rangordnung mittels Reciprocal Rank Fusion (RRF) wird die Belegabdeckung ausgeglichen und Redundanz reduziert.
Experimentelle Ergebnisse auf dem MuISQA‑Benchmark sowie auf weiteren allgemeinen RAG‑Datensätzen zeigen, dass dieser Ansatz die Retrieval‑Genauigkeit und die Belegabdeckung deutlich verbessert. Damit liefert MuISQA nicht nur ein neues Testset, sondern auch einen praktikablen Weg, wissenschaftliche Fragen mit mehreren Intentionen zuverlässig zu beantworten.