Unschärfe-gesteuerte Checkpoint-Auswahl verbessert RL-Fine‑Tuning von LLMs
Reinforcement‑Learning‑Fine‑Tuning (RL‑FT) ist ein entscheidender Schritt, um große Sprachmodelle (LLMs) an menschliche Werte anzupassen. Gleichzeitig ist der Prozess extrem instabil und die Leistung variiert stark zwis…