Reinforcement Learning steigert Genauigkeit bei token‑unabhängiger Regression
Ein neues Verfahren nutzt Reinforcement Learning (RL), um die Genauigkeit von „decoding‑based regression“ zu erhöhen – ein Ansatz, bei dem große Sprachmodelle numerische Vorhersagen als Sequenz erzeugen. Traditionell we…