Neues RL-Framework GIFT vereint GRPO, DPO und UNA für bessere LLM‑Ausrichtung
Die neueste Veröffentlichung auf arXiv (2510.23868v1) stellt GIFT – Group‑relative Implicit Fine Tuning – vor, ein innovatives Reinforcement‑Learning‑Framework, das die Ausrichtung von großen Sprachmodellen (LLMs) neu d…