KI News. Verstehen, was wichtig wird.

Suche Anmelden

Suche

Finde Modelle, Firmen und Themen

Suche im News-Archiv nach Themen, die du dauerhaft verfolgen willst.

Ergebnisse für “Präferenzlernen”

Reward-Modelle ohne menschliche Hilfe: Skalierung durch unüberwachtes Lernen

Forscher haben einen neuen Ansatz vorgestellt, mit dem Belohnungsmodelle ohne menschliche Annotationen skaliert werden können. Durch das Tr…

arXiv – cs.LG 04.03.2026 05:00

PEPO: Ensemble‑Optimierung verhindert Überoptimierung ohne Datenverteilung

In der Welt der Präferenzlernen ist die Gefahr der Überoptimierung seit langem bekannt: Modelle neigen dazu, sich zu stark an die Trainings…

arXiv – cs.LG 09.02.2026 05:00

Neuer Ansatz: Knowledge Gradient für Präferenzlernen in Bayesianischer Optimierung

Der Knowledge Gradient (KG) gilt als eine der führenden Akquisitionsfunktionen in der Bayesianischen Optimierung (BO) und wird häufig einge…

arXiv – cs.LG 02.02.2026 05:00

Von RLHF zu direktem Alignment: Theoretische Einheit für Präferenzlernen LLMs

Die sichere und nützliche Nutzung großer Sprachmodelle hängt davon ab, wie gut sie menschliche Präferenzen widerspiegeln. Während Reinforce…

arXiv – cs.AI 13.01.2026 05:00

DeepHalo: Neuronales Modell für kontrollierbare Kontext‑Effekte

Die Modellierung menschlicher Entscheidungen ist entscheidend für Anwendungen wie Empfehlungssysteme, Präferenzlernen und die Ausrichtung v…

arXiv – cs.LG 09.01.2026 05:00

Neue Algorithmen für konvergente Reinforcement‑Learning‑Modelle: Theorie und Praxis

Eine neue Dissertation liefert ein umfassendes theoretisches Fundament und praxisnahe Algorithmen, die das Gebiet des konformen Reinforceme…

arXiv – cs.LG 12.12.2025 05:00

Große Sprachmodelle (LLMs) haben in offenen Generierungsaufgaben beeindruckende Ergebnisse erzielt. Sie stoßen jedoch häufig an ihre Grenzen, wenn es darum geht, Inhalte an die unterschiedlichen kognitiven Fähigkeiten der Nutzer anzupassen. Dieses Problem, das wir als kognitive Fehlanpassung bezeichnen, zeigt sich in zwei Formen: Erstens in der Wissenskomplexität, wenn die Inhalte zu schwer oder zu einfach für das Verständnis des Nutzers sind; zweitens in der Präsentationsweise, wenn Struktur oder Ton die A

Um diesen Herausforderungen zu begegnen, stellen wir das Cognitive-Level Alignment Framework (CLAF) vor – ein generisches Generierungsframe…

arXiv – cs.AI 26.09.2025 05:00

Neuro-Symbolische Logik: Diffusionsmodell löst komplexe Rätsel

Ein neues Verfahren aus dem Bereich der künstlichen Intelligenz kombiniert die generative Kraft von Diffusionsmodellen mit neuro-symbolisch…

arXiv – cs.AI 25.08.2025 05:00