GraSP: Skalierbar Generierung und Qualitätsprüfung Daten für SFT & DPO
Die Weiterentwicklung großer Sprachmodelle hängt entscheidend von qualitativ hochwertigen Datensätzen ab. Für das Supervised Fine‑Tuning (SFT) und die Alignment‑Aufgaben wie Direct Preference Optimization (DPO) sind robuste, realitätsnahe Trainingsmaterialien unerlässlich.