KI News. Verstehen, was wichtig wird.

Suche Anmelden

Suche

Finde Modelle, Firmen und Themen

Suche im News-Archiv nach Themen, die du dauerhaft verfolgen willst.

Ergebnisse für “Reward-Modell”

<p>Mehrere Biases in Reward-Modellen: Mechanistische Shaping-Technik reduziert Vorurteile</p> <p>In einer aktuellen Studie, veröffentlicht auf arXiv, wird gezeigt, dass Reward Models (RMs), die zur Online‑Anpassung von Sprachmodellen an menschliche Präferenzen eingesetzt werden, weiterhin erhebliche Verzerrungen aufweisen. Trotz fortschrittlicher Ansätze bleiben Probleme wie längsbezogene Verzerrungen, sycophantisches Verhalten und übermäßiges Selbstvertrauen bestehen.</p> <p>Die Untersuchung analysierte fü

arXiv – cs.AI 05.03.2026 05:00

Reward-Modelle ohne menschliche Hilfe: Skalierung durch unüberwachtes Lernen

Forscher haben einen neuen Ansatz vorgestellt, mit dem Belohnungsmodelle ohne menschliche Annotationen skaliert werden können. Durch das Tr…

arXiv – cs.LG 04.03.2026 05:00

LLM-gestützte Methode entdeckt versteckte Biases in Reward-Modellen

In der Post-Training-Phase von großen Sprachmodellen (LLMs) spielen Reward‑Modelle (RMs) eine zentrale Rolle. Frühere Untersuchungen haben…

arXiv – cs.LG 18.02.2026 05:00

<p>Joint Reward Modeling: Effiziente Bild-Reward-Modelle durch gemeinsames Lernen</p> <p>Reward‑Modelle sind das Herzstück von Reinforcement‑Learning‑From‑Human‑Feedback (RLHF). Sie bestimmen, wie gut generative Modelle menschliche Präferenzen widerspiegeln und gleichzeitig zuverlässig bleiben. Besonders bei komplexen Bild‑Bearbeitungsaufgaben muss ein Reward‑Modell globale semantische Konsistenz und implizite logische Einschränkungen erfassen – weit über die reine lokale Ähnlichkeit hinaus.</p> <p>Aktuelle

arXiv – cs.AI 10.02.2026 05:00

Logikbasierte Alternative zu Reward-Modellen: S‑GRPO verbessert RLHF‑Alignment

Reinforcement Learning from Human Feedback (RLHF) ist entscheidend, um große Sprachmodelle an menschliche Werte anzupassen. Dabei hängt die…

arXiv – cs.LG 17.12.2025 05:00

LLM-Schritte prüfen: Unsicherheitsköpfe liefern schnelle Verifikation

In einer neuen Studie wird ein schlanker Ansatz vorgestellt, mit dem große Sprachmodelle (LLMs) ihre eigenen Rechenschritte zuverlässig prü…

arXiv – cs.AI 11.11.2025 05:00