QeRL: NVFP4-Quantized Reinforcement Learning (RL) Brings 32B LLM Training to a Single H100—While Improving Exploration
Anzeige
Ähnliche Artikel
VentureBeat – AI
•
Nvidia researchers unlock 4-bit LLM training that matches 8-bit performance
arXiv – cs.AI
•
Bench360: Vollständiges Benchmarking lokaler LLM‑Inferenz aus 360°
MarkTechPost
•
NVIDIA präsentiert TiDAR: Hybrid-Architektur für schnelle LLM-Inferenz
arXiv – cs.LG
•
Selbstverbessernde RL: LLMs meistern offene Aufgaben ohne externe Belohnungen
MarkTechPost
•
Sigmoidal Scaling Curves Make Reinforcement Learning RL Post-Training Predictable for LLMs
VentureBeat – AI
•
Nvidia researchers boost LLMs reasoning skills by getting them to 'think' during pre-training