GraSP: Skalierbar Generierung und Qualitätsprüfung Daten für SFT & DPO

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Die Weiterentwicklung großer Sprachmodelle hängt entscheidend von qualitativ hochwertigen Datensätzen ab. Für das Supervised Fine‑Tuning (SFT) und die Alignment‑Aufgaben wie Direct Preference Optimization (DPO) sind robuste, realitätsnahe Trainingsmaterialien unerlässlich.

Mit dem neuen Framework GraSP wird ein einheitliches, graph‑basiertes System vorgestellt, das die Erstellung synthetischer Dialogdaten in großem Umfang ermöglicht. Durch eine modulare, konfigurationsbasierte Pipeline lassen sich komplexe Gesprächsabläufe mit minimalem manuellen Aufwand modellieren, was die Skalierbarkeit erheblich steigert.

Ein zentrales Merkmal ist die duale Qualitätsprüfung: zunächst werden heuristische Regeln angewendet, anschließend bewertet ein Sprachmodell die Daten. Dieser zweistufige Ansatz filtert und bewertet automatisch Konversationen im OASST‑Format, sodass nur hochqualitative Dialogbeispiele in die Endsammlung gelangen.

Die generierten Datensätze folgen einem flexiblen Schema, das sowohl SFT‑ als auch DPO‑Anforderungen gerecht wird. Sie lassen sich nahtlos in diverse Trainings‑Workflows integrieren und reduzieren den Aufwand für die Datenvorbereitung in LLM‑Trainingspipelines signifikant.

Ähnliche Artikel