Hugging Face präsentiert TRL v1.0: Post-Training-Stack für SFT, Reward Modeling, DPO & GRPO
Hugging Face hat die erste stabile Version von TRL (Transformer Reinforcement Learning) veröffentlicht. Mit TRL v1.0 wird die Bibliothek von einem rein forschungsorientierten Repository zu einem vollwertigen, produktion…