Suche

Finde Modelle, Firmen und Themen

Suche im News-Archiv nach Themen, die du dauerhaft verfolgen willst.

Ergebnisse für “Lernoptimierung”
Forschung

Was kann das Bradley–Terry-Modell aus Paarvergleichsdaten wirklich extrahieren?<br/><p>In der aktuellen Forschung zur maschinellen Lernoptimierung steht das Pairwise Preference Learning im Fokus, insbesondere bei der Abstimmung von Sprachmodellen auf menschliche Vorlieben. Ein typisches Datenset besteht aus Tripeln \((x, y^+, y^-)\), wobei die Antwort \(y^+\) im Kontext \(x\) gegenüber \(y^-\) bevorzugt wird.</p><p>Das Bradley–Terry (BT) Modell ist dabei die dominierende Methode, die Präferenzwahrscheinlich

arXiv – cs.LG