Suche nach Menschliche Präferenzen

Fehlerzählen statt Rubriken: Neue Belohnung für virtuelle Anprobe

In der Welt des Reinforcement Learning haben sich Methoden wie RLVR und Rubrics as Rewards (RaR) als besonders wirkungsvoll erwiesen, wenn…

arXiv – cs.AI 09.03.2026 04:00

Forschung

Mehrere Biases in Reward-Modellen: Mechanistische Shaping-Technik reduziert Vorurteile In einer aktuellen Studie, veröffentlicht auf arXiv, wird gezeigt, dass Reward Models (RMs), die zur Online‑Anpassung von Sprachmodellen an menschliche Präferenzen eingesetzt werden, weiterhin erhebliche Verzerrungen aufweisen. Trotz fortschrittlicher Ansätze bleiben Probleme wie längsbezogene Verzerrungen, sycophantisches Verhalten und übermäßiges Selbstvertrauen bestehen. Die Untersuchung analysierte fü

arXiv – cs.AI 05.03.2026 05:00

Forschung

RewardUQ: Einheitlicher Rahmen zur Unsicherheitsbewertung von Belohnungsmodellen

In der Welt der großen Sprachmodelle (LLMs) sind Belohnungsmodelle entscheidend, um die Systeme an menschliche Präferenzen anzupassen. Doch…

arXiv – cs.LG 02.03.2026 05:00

Forschung

RLHFless: Serverless‑Computing für effizientes RLHF

Reinforcement Learning from Human Feedback (RLHF) wird zunehmend eingesetzt, um große Sprachmodelle (LLM) nach dem Training an menschliche…

arXiv – cs.AI 27.02.2026 05:00

Forschung

Flow-Factory: Einheitliches RL-Framework für Flow-Matching-Modelle

Reinforcement Learning hat sich als vielversprechendes Mittel etabliert, um Diffusions- und Flow-Matching‑Modelle an menschliche Präferenze…

arXiv – cs.LG 16.02.2026 05:00

Praxis

In diesem Tutorial wird ein End‑to‑End‑Workflow für Direct Preference Optimization vorgestellt, mit dem große Sprachmodelle an menschliche Präferenzen angepasst werden können – und das ganz ohne ein Reward‑Modell. Der Ansatz kombiniert TRL’s DPOTrainer mit QLoRA und PEFT, sodass die Präferenzbasierte Ausrichtung auf einer einzigen Colab‑GPU möglich ist. Das Training erfolgt direkt auf dem binarisierten UltraFeedback‑Datensatz, bei dem jedes Prompt ein binäres Feedback erhält. Dadurch lassen

MarkTechPost 13.02.2026 04:32

Forschung

MERIT-Feedback verbessert Verhandlungsfähigkeiten von LLMs

Forscher haben ein neues Framework vorgestellt, das Large Language Models (LLMs) dabei unterstützt, Verhandlungen viel besser zu führen. Du…

arXiv – cs.AI 12.02.2026 05:00

Forschung

Neuer Ansatz: Autoregressive DPO optimiert Sprachmodelle nach menschlichen Präferenzen

Die jüngste Arbeit auf arXiv präsentiert einen bedeutenden Fortschritt in der Ausrichtung großer Sprachmodelle (LLMs) auf menschliche Vorli…

arXiv – cs.AI 11.02.2026 05:00

Forschung

Joint Reward Modeling: Effiziente Bild-Reward-Modelle durch gemeinsames Lernen Reward‑Modelle sind das Herzstück von Reinforcement‑Learning‑From‑Human‑Feedback (RLHF). Sie bestimmen, wie gut generative Modelle menschliche Präferenzen widerspiegeln und gleichzeitig zuverlässig bleiben. Besonders bei komplexen Bild‑Bearbeitungsaufgaben muss ein Reward‑Modell globale semantische Konsistenz und implizite logische Einschränkungen erfassen – weit über die reine lokale Ähnlichkeit hinaus. Aktuelle

arXiv – cs.AI 10.02.2026 05:00

Forschung

Euphonium: Videofluss‑Matching mit Prozessbelohnungsgradienten gesteuert

Ein brandneues Verfahren namens Euphonium verspricht, die Art und Weise zu revolutionieren, wie Video‑Generierungsmodelle mit menschlichen…

arXiv – cs.LG 06.02.2026 05:00

Forschung

Realzeit‑Ausrichtung von Belohnungsmodellen: Ein neues RLHF‑Framework

Reinforcement Learning from Human Feedback (RLHF) ist ein zentrales Verfahren, um große Sprachmodelle an menschliche Präferenzen anzupassen…

arXiv – cs.AI 02.02.2026 05:00

Forschung

GRADE: Backpropagation statt Policy Gradients für LLM‑Ausrichtung

In der Welt der großen Sprachmodelle (LLMs) dominiert das Reinforcement Learning aus menschlichem Feedback (RLHF) als bevorzugte Methode, u…

arXiv – cs.LG 21.01.2026 05:00

Forschung

KI-Co-Pilot beschleunigt Inverse-Design von Hochleistungsstrukturen

Inverse‑Design‑Werkzeuge wie die Topologieoptimierung (TO) können die Leistung von Ingenieursstrukturen deutlich steigern. Ihre breite Anwe…

arXiv – cs.LG 19.01.2026 05:00

Forschung

LLMdoctor: Token‑basierte Optimierung für effiziente Test‑Zeit‑Anpassung von LLMs

Die Herausforderung, große Sprachmodelle (LLMs) an menschliche Präferenzen anzupassen, bleibt ein zentrales Thema in der KI-Forschung. Trad…

arXiv – cs.AI 16.01.2026 05:00

Forschung

Von RLHF zu direktem Alignment: Theoretische Einheit für Präferenzlernen LLMs

Die sichere und nützliche Nutzung großer Sprachmodelle hängt davon ab, wie gut sie menschliche Präferenzen widerspiegeln. Während Reinforce…

arXiv – cs.AI 13.01.2026 05:00

Forschung

MixDPO: Präferenzstärke modelliert – neue Methode für pluralistische Alignment

In einer wegweisenden Veröffentlichung präsentiert das Forschungsteam die Mixed Logit Direct Preference Optimization (MixDPO), eine Weitere…

arXiv – cs.LG 13.01.2026 05:00

Forschung

Agenten bevorzugen sichere, niedrige Belohnungen bei Mehrfachlehrern

In einer neuen Studie auf arXiv wurde ein überraschendes Verhalten von Lernagenten im Bereich des interaktiven Reinforcement Learning (IRL)…

arXiv – cs.AI 22.12.2025 05:00

Forschung

Logikbasierte Alternative zu Reward-Modellen: S‑GRPO verbessert RLHF‑Alignment

Reinforcement Learning from Human Feedback (RLHF) ist entscheidend, um große Sprachmodelle an menschliche Werte anzupassen. Dabei hängt die…

arXiv – cs.LG 17.12.2025 05:00

Forschung

RPO: Mit reflektiven Hinweisen die On-Policy‑Ausrichtung von Modellen verbessern

Die neue Methode Reflective Preference Optimization (RPO) setzt einen frischen Impuls in der Welt der KI‑Ausrichtung. Während Direct Prefer…

arXiv – cs.AI 16.12.2025 05:00

Forschung

DPO steuert Verhalten, nicht Glaubenshaltungen – Ein Blick hinter die Kulissen

Direct Preference Optimization (DPO) gilt als Standardverfahren, um große Sprachmodelle an menschliche Präferenzen anzupassen. Doch bislang…

arXiv – cs.LG 16.12.2025 05:00

Forschung

Neue Gewichtungsstrategien verbessern Präferenzoptimierung von LLMs

Fine‑Tuning ist ein wesentlicher Schritt, um große Sprachmodelle (LLMs) an menschliche Präferenzen anzupassen. Das neue Verfahren Multiple‑…

arXiv – cs.LG 12.12.2025 05:00

Forschung

TreeGRPO: Effiziente RL-Post-Training-Strategie für Diffusionsmodelle

Reinforcement‑Learning‑Post‑Training ist entscheidend, um generative Modelle an menschliche Präferenzen anzupassen, doch die hohen Rechenko…

arXiv – cs.LG 10.12.2025 05:00

Forschung

Reinforcement Learning für Diffusionsmodelle: Datenreguliertes Verfahren verbessert Ergebnisse

In der Welt der generativen Diffusionsmodelle ist die Abstimmung auf menschliche Präferenzen ein zentrales Ziel. Dabei stoßen herkömmliche…

arXiv – cs.LG 05.12.2025 05:00

Forschung

Neues fNIRS‑Dataset ermöglicht neuronale Rückmeldung für Reinforcement Learning

In einem wegweisenden Beitrag zur Reinforcement Learning from Human Feedback (RLHF) wird gezeigt, wie passive Brain‑Computer‑Interfaces (BC…

arXiv – cs.AI 18.11.2025 05:00

Forschung

Preference Orchestrator: Prompt-bewusste Multi-Objektiv-Ausrichtung für LLMs

Große Sprachmodelle (LLMs) haben in den letzten Jahren beeindruckende Fortschritte in vielen NLP-Aufgaben erzielt. Doch die Herausforderung…

arXiv – cs.AI 17.11.2025 05:00

Forschung

Effizientes Lernen aus menschlichem Feedback: Bayesianische Präferenzinferenz

Ein neues Forschungsprojekt auf arXiv präsentiert einen hybriden Ansatz, der die Skalierbarkeit von Reinforcement Learning from Human Feedb…

arXiv – cs.LG 07.11.2025 05:00

Forschung

RePULSe: Neue Methode reduziert unerwünschte Ausgaben von Sprachmodellen

In der aktuellen Forschung zur Ausrichtung von Sprachmodellen auf menschliche Präferenzen wird Reinforcement Learning (RL) häufig eingesetz…

arXiv – cs.LG 27.10.2025 04:00

Forschung

Neue Transformation macht KI‑Ziele korrigierbar – ohne Leistungseinbußen

In einer wegweisenden Veröffentlichung auf arXiv wird ein neues Konzept vorgestellt, das KI‑Ziele so gestaltet, dass sie sich problemlos an…

arXiv – cs.AI 20.10.2025 05:00

Forschung

Datenqualität entscheidend: Wie Präferenzdaten DPO für LLMs optimieren

Die neue Methode Direct Preference Optimization (DPO) hat sich als unkomplizierte und wirkungsvolle Technik etabliert, um große Sprachmodel…

arXiv – cs.LG 27.08.2025 05:00

Forschung

Zwei‑Stufen‑Ansatz für Sprachmodelle: Vielfalt zuerst, Qualität danach

Die Ausrichtung von Sprachmodellen an menschliche Präferenzen ist entscheidend für die Entwicklung zuverlässiger KI‑Systeme. Traditionell w…

arXiv – cs.AI 15.08.2025 05:00

Finde Modelle, Firmen und Themen

Fehlerzählen statt Rubriken: Neue Belohnung für virtuelle Anprobe

RewardUQ: Einheitlicher Rahmen zur Unsicherheitsbewertung von Belohnungsmodellen

RLHFless: Serverless‑Computing für effizientes RLHF

Flow-Factory: Einheitliches RL-Framework für Flow-Matching-Modelle

MERIT-Feedback verbessert Verhandlungsfähigkeiten von LLMs

Neuer Ansatz: Autoregressive DPO optimiert Sprachmodelle nach menschlichen Präferenzen

Euphonium: Videofluss‑Matching mit Prozessbelohnungsgradienten gesteuert

Realzeit‑Ausrichtung von Belohnungsmodellen: Ein neues RLHF‑Framework

GRADE: Backpropagation statt Policy Gradients für LLM‑Ausrichtung

KI-Co-Pilot beschleunigt Inverse-Design von Hochleistungsstrukturen

LLMdoctor: Token‑basierte Optimierung für effiziente Test‑Zeit‑Anpassung von LLMs

Von RLHF zu direktem Alignment: Theoretische Einheit für Präferenzlernen LLMs

MixDPO: Präferenzstärke modelliert – neue Methode für pluralistische Alignment

Agenten bevorzugen sichere, niedrige Belohnungen bei Mehrfachlehrern

Logikbasierte Alternative zu Reward-Modellen: S‑GRPO verbessert RLHF‑Alignment

RPO: Mit reflektiven Hinweisen die On-Policy‑Ausrichtung von Modellen verbessern

DPO steuert Verhalten, nicht Glaubenshaltungen – Ein Blick hinter die Kulissen

Neue Gewichtungsstrategien verbessern Präferenzoptimierung von LLMs

TreeGRPO: Effiziente RL-Post-Training-Strategie für Diffusionsmodelle

Reinforcement Learning für Diffusionsmodelle: Datenreguliertes Verfahren verbessert Ergebnisse

Neues fNIRS‑Dataset ermöglicht neuronale Rückmeldung für Reinforcement Learning

Preference Orchestrator: Prompt-bewusste Multi-Objektiv-Ausrichtung für LLMs

Effizientes Lernen aus menschlichem Feedback: Bayesianische Präferenzinferenz

RePULSe: Neue Methode reduziert unerwünschte Ausgaben von Sprachmodellen

Neue Transformation macht KI‑Ziele korrigierbar – ohne Leistungseinbußen

Datenqualität entscheidend: Wie Präferenzdaten DPO für LLMs optimieren

Zwei‑Stufen‑Ansatz für Sprachmodelle: Vielfalt zuerst, Qualität danach

🍪 Cookie-Einstellungen