Mehrere Antworten in Sprachmodellen: RL ermöglicht Entscheidungsfindung
Ein neues arXiv-Papier (2603.24844v1) präsentiert einen Reinforcement‑Learning‑Ansatz, der Sprachmodelle dazu befähigt, bei der Inferenz mehrere plausible Antworten gleichzeitig zu generieren. Statt die Modellverteilung nach dem Training auf einen einzigen Modus zu reduzieren, wird das RL‑Ziel so a…