QUARK: Retrieval bei nicht-faithful Anfragen via Query-Anchored Aggregation
Ein neues, auf arXiv veröffentlichtes Verfahren namens QUARK adressiert ein zentrales Problem der modernen Informationssuche: In der Praxis sind Nutzeranfragen häufig unvollständig, verrauscht oder verzerrt. Diese „nicht-faithful“ Anfragen führen dazu, dass klassische Retriever wichtige semantische Informationen verlieren und dadurch die Trefferqualität stark sinkt.
QUARK ist ein trainingsfreies Framework, das die Unsicherheit einer Anfrage explizit modelliert. Es erzeugt mehrere plausible Interpretationen – sogenannte Recovery Hypothesen – die die latente Intention des Nutzers widerspiegeln. Durch die sogenannte Query-Anchored Aggregation werden die Signale dieser Hypothesen unter Beibehaltung der ursprünglichen Anfrage als semantischer Anker kombiniert. Auf diese Weise verhindert das System semantische Drift und „Hypothesen-Hijacking“, während gleichzeitig zusätzliche, kontrollierte Evidenz genutzt wird.
In umfangreichen Simulationen und auf den BEIR-Benchmarks FIQA, SciFact und NFCorpus zeigte QUARK signifikante Verbesserungen bei Recall, MRR und nDCG – sowohl bei sparsamen als auch bei dichten Retrievern. Ablationsstudien belegen, dass die Leistung robust gegenüber der Anzahl der Recovery Hypothesen bleibt und dass die anchored Aggregation die unanchored Max/Mean/Median‑Pooling‑Methoden deutlich übertrifft.
Die Ergebnisse unterstreichen, dass die Kombination aus Modellierung der Anfrageunsicherheit über Recovery Hypothesen und einer principienbasierten anchored Aggregation entscheidend ist, um Retrieval-Systeme gegen nicht-faithful Anfragen widerstandsfähig zu machen. QUARK liefert damit einen wichtigen Schritt hin zu zuverlässigeren Suchergebnissen in realen Anwendungsfällen.