EncouRAGe: Lokale, schnelle und zuverlässige Bewertung von RAG-Systemen

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Ein neues Python-Framework namens EncouRAGe wurde vorgestellt, das die Entwicklung und Bewertung von Retrieval-Augmented Generation (RAG)-Systemen mit großen Sprachmodellen (LLMs) und Einbettungsmodellen vereinfacht. Das Tool besteht aus fünf modularen Komponenten – Type Manifest, RAG Factory, Inference, Vector Store und Metrics – die flexible Experimente und erweiterbare Entwicklungen ermöglichen.

EncouRAGe legt besonderen Wert auf wissenschaftliche Reproduzierbarkeit, vielfältige Evaluationsmetriken und die lokale Bereitstellung von Modellen. Dadurch können Forscher Datensätze effizient innerhalb von RAG-Workflows prüfen, ohne auf externe Cloud-Dienste angewiesen zu sein.

In einer umfangreichen Evaluation wurden mehrere Benchmark-Datensätze mit über 25.000 Frage-Antwort-Paaren und mehr als 51.000 Dokumenten getestet. Die Ergebnisse zeigen, dass RAG-Systeme noch hinter dem Oracle-Context zurückbleiben, während Hybrid-BM25 die besten Resultate auf allen vier Datensätzen erzielt. Ein zusätzlicher Reranking-Ansatz führte lediglich zu geringen Leistungssteigerungen, erhöhte jedoch die Antwortlatenz.

Ähnliche Artikel