Forschung
DPO kann multimodale Modelle nicht gleichzeitig verstehen und generieren
In einer ersten systematischen Untersuchung wurde geprüft, ob das Verfahren der Direct Preference Optimization (DPO) gleichzeitig die Verst…
arXiv – cs.LG