SparseRM: Leichtgewichtiges Präferenzmodell mit Sparse Autoencoder
Ein neues arXiv-Papier mit der ID 2511.07896v1 präsentiert SparseRM, ein schlankes Modell zur Bewertung menschlicher Präferenzen bei großen Sprachmodellen (LLMs). Reward Models (RMs) sind entscheidend für die Nachschulu…