Neues Modell reduziert Bias in multimodalen RL‑Systemen
In der Verstärkungslern‑Forschung mit menschlichem Feedback (RLHF) können Belohnungsmodelle vorhandene Vorurteile in multimodalen Datensätzen verstärken. Das führt zu fehlerhaften Belohnungssignalen und einer geringeren Fairness der optimierten Agenten. Um diesem Problem entgegenzuwirken, hat ein internationales Forschungsteam ein neues, kontrafaktisches Belohnungsmodell entwickelt, das auf kausaler Inferenz und multimodaler RepräsentationsLerntechnik basiert.