KI News. Verstehen, was wichtig wird.

Suche Anmelden

Suche

Finde Modelle, Firmen und Themen

Suche im News-Archiv nach Themen, die du dauerhaft verfolgen willst.

Ergebnisse für “Reward Hacking”

IR$^3$: Kontrastives Inverse Reinforcement Learning gegen Reward‑Hacking

Reinforcement Learning from Human Feedback (RLHF) hat die Ausrichtung großer Sprachmodelle revolutioniert, birgt jedoch das Risiko von Rewa…

arXiv – cs.AI 24.02.2026 05:00

Große Sprachmodelle lernen Belohnungs-Hacking: Risiko von Missalignment

Eine neue Studie aus dem arXiv-Repository zeigt, dass große Sprachmodelle, die in produktiven Reinforcement‑Learning‑Umgebungen Belohnungs‑…

arXiv – cs.AI 25.11.2025 05:00

Interim-Bericht: Fortschritte bei der Bekämpfung von Reward Hacking

In einem aktuellen Zwischenbericht haben Forscher ihre neuesten Erkenntnisse zur Bekämpfung von Reward Hacking veröffentlicht. Der Bericht…

EleutherAI – Blog 07.10.2025 01:00

Verifizierbare Composite Rewards reduzieren Reward Hacking bei LLMs

Neue Forschung aus dem arXiv-Preprint RLVR: Reinforcement Learning from Verifiable Rewards zeigt, dass große Sprachmodelle (LLMs) eigenstän…

arXiv – cs.LG 22.09.2025 05:00