Neues Chunking-Verfahren verbessert Retrieval-Augmented Generation um 12 %
In der Welt der Retrieval-Augmented Generation (RAG) stellt die Fragmentierung von Wissen über mehrere Dokumente hinweg ein großes Problem dar. Ein neues Verfahren namens Cross-Document Topic-Aligned Chunking (CDTA) löst dieses Problem, indem es die Inhalte eines gesamten Korpus zusammenführt und in thematisch abgestimmte, informationsdichte Blöcke umwandelt.
CDTA arbeitet zunächst damit, über alle Dokumente hinweg Themen zu identifizieren. Anschließend werden die einzelnen Segmente den jeweiligen Themen zugeordnet und zu einheitlichen Chunk‑Einheiten zusammengeführt. Dadurch entsteht ein kohärenter Wissenspool, der über die Grenzen einzelner Dokumente hinausgeht.
Bei der Anwendung auf die HotpotQA‑Multi‑Hop‑Reasoning‑Aufgabe erzielte CDTA eine Glaubwürdigkeit von 0,93 – deutlich höher als die 0,83 bei kontextbasiertem Retrieval und 0,78 bei semantischem Chunking. Das entspricht einer Verbesserung von 12 % gegenüber dem derzeit besten industriellen Standard (p < 0,05).
In Tests mit UAE‑Legal‑Texten erreichte das Verfahren eine Glaubwürdigkeit von 0,94 und eine Zitiergenauigkeit von 0,93. Selbst bei einer knappen Auswahl von drei Chunks (k = 3) blieb die Glaubwürdigkeit bei 0,91, während semantische Methoden auf 0,68 zurückfielen. Ein einzelner CDTA‑Chunk kann dabei Informationen enthalten, die in traditionellen Verfahren mehrere Fragmente erfordern würden.
Obwohl die Indexierungskosten etwas höher sind, kompensiert die Synthese von informationsdichten Chunks den Bedarf an aufwändiger Laufzeitabfrage. Für Anwendungen mit hohem Anfragevolumen und verteiltem Wissen bietet die cross‑document‑Synthese somit einen messbaren Mehrwert gegenüber herkömmlichen innerhalb‑Dokument‑Optimierungen.