DMA: Echtzeit-Feedback für Retrieval‑augmented Generation
In der Welt der Retrieval‑augmented Generation (RAG) beschränken sich viele Systeme bislang auf statische Abrufmechanismen, was die Anpassungsfähigkeit an sich wandelnde Nutzerintentionen und Content‑Drift einschränkt. Mit dem neuen Ansatz Dynamic Memory Alignment (DMA) wird dieses Problem adressiert: DMA ist ein Online‑Learning‑Framework, das gezielt menschliches Feedback in mehreren Granularitäten nutzt, um die Rangordnung von Suchergebnissen in interaktiven Szenarien kontinuierlich zu optimieren.
Der Lernprozess von DMA gliedert sich in drei aufeinanderfolgende Schritte. Zunächst werden Punkt‑ und Listen‑Ranker mithilfe von überwachten Trainingsdaten trainiert. Anschließend wird die Policy durch Präferenzen auf Antwort‑Ebene weiter verfeinert, wodurch das System lernt, welche Antworten von Nutzern bevorzugt werden. Abschließend erfolgt eine Knowledge‑Distillation, die die komplexe Policy in einen schlanken Scorer überführt, der für die Echtzeit‑Bereitstellung mit niedriger Latenz geeignet ist. Dabei bezeichnet „Memory“ die gesamte Kontextmenge, die dem großen Sprachmodell (LLM) für das In‑Context‑Learning zur Verfügung steht.
Die Wirksamkeit von DMA wurde in einem zweigleisigen Evaluationsprotokoll geprüft. Online wurden umfangreiche A/B‑Tests durchgeführt, um die Wirkung jeder Feedback‑Quelle zu isolieren, während offline wenige‑Shot‑Tests auf wissensintensiven Benchmarks wie TriviaQA und HotpotQA die Leistungsfähigkeit des Modells unter Beweis stellten. In einer mehrmonatigen industriellen Implementierung zeigte DMA signifikante Steigerungen der Nutzerinteraktion, ohne die Basis‑Retrieval‑Fähigkeiten zu beeinträchtigen.
Zusammengefasst bietet DMA einen systematischen, feedback‑getriebenen Ansatz für die Echtzeit‑Anpassung von RAG‑Systemen. Durch die Kombination von überwachten Lernmethoden, policy‑basiertem Feedback und effizienten Distillationstechniken ermöglicht DMA eine kontinuierliche Verbesserung der Antwortqualität, während gleichzeitig die Grundfunktionalität erhalten bleibt.