Bewertung der Abrufqualität in RAG‑Pipelines: DCG@k und NDCG@k (Teil 3)
In diesem abschließenden Teil der Serie zur Bewertung von Retrieval‑Qualität in Retrieval‑Augmented‑Generation‑Pipelines (RAG) wird die Anwendung von DCG@k und NDCG@k vorgestellt. Diese beiden Metriken ermöglichen es, die Rangfolge der zurückgegebenen Dokumente anhand ihrer Relevanzstufen zu bewerten und damit die Effektivität des Retrieval‑Schritts präziser zu messen.
DCG@k (Discounted Cumulative Gain) summiert die Relevanzwerte der ersten k Treffer, wobei höhere Positionen stärker gewichtet werden. NDCG@k (Normalized DCG) normalisiert diesen Wert, indem er ihn mit dem idealen DCG vergleicht, sodass ein Ergebnis zwischen 0 und 1 liegt. Dadurch lässt sich die Qualität verschiedener Retrieval‑Modelle direkt vergleichen.
Der Beitrag erklärt Schritt für Schritt, wie man die Relevanzstufen definiert, die DCG‑Berechnung durchführt und schließlich die NDCG‑Score ermittelt. Dabei werden praktische Beispiele aus RAG‑Anwendungen herangezogen, um die Konzepte anschaulich zu veranschaulichen. Für Entwickler und Forscher, die die Leistung ihrer Retrieval‑Module optimieren wollen, bietet dieser Artikel einen klaren Leitfaden zur Implementierung und Interpretation dieser wichtigen Metriken.