Suche nach RLHF | meineki.news

RLHF‑Alignment bleibt flach: Gradient‑Analyse enthüllt die Ursache

Eine neue Studie auf arXiv zeigt, warum die Sicherheit von Sprachmodellen bei Reinforcement‑Learning‑from‑Human‑Feedback (RLHF) nur oberflä…

arXiv – cs.LG 06.03.2026 05:00

Forschung

Personality‑Slider für LLMs: Steuerung von Charaktereigenschaften in Echtzeit

Eine neue Technik ermöglicht es, große Sprachmodelle (LLMs) in Echtzeit mit individuellen Persönlichkeiten zu versehen, ohne dass dafür umf…

arXiv – cs.AI 05.03.2026 05:00

Forschung

RLHFless: Serverless‑Computing für effizientes RLHF

Reinforcement Learning from Human Feedback (RLHF) wird zunehmend eingesetzt, um große Sprachmodelle (LLM) nach dem Training an menschliche…

arXiv – cs.AI 27.02.2026 05:00

Forschung

Neuer Ansatz: Alignment-Weighted DPO stärkt Sicherheit von Sprachmodellen

In den letzten Jahren haben Techniken wie Supervised Fine‑Tuning (SFT), Reinforcement Learning from Human Feedback (RLHF) und Direct Prefer…

arXiv – cs.AI 26.02.2026 05:00

Forschung

IR$^3$: Kontrastives Inverse Reinforcement Learning gegen Reward‑Hacking

Reinforcement Learning from Human Feedback (RLHF) hat die Ausrichtung großer Sprachmodelle revolutioniert, birgt jedoch das Risiko von Rewa…

arXiv – cs.AI 24.02.2026 05:00

Forschung

Regulierung verbessert RLHF: Mehr Stabilität, weniger Reward‑Hacking

Reinforcement Learning from Human Feedback (RLHF) hat die Ausrichtung von KI-Modellen stark verbessert, steht aber noch vor zwei zentralen…

arXiv – cs.LG 13.02.2026 05:00

Forschung

Neues Paradigma für medizinische KI-Alignment: ganzheitliche Optimierung

In den letzten Jahren hat sich das Reinforcement Learning (RL) für die Ausrichtung großer Sprachmodelle rasant entwickelt. Doch die Übertra…

arXiv – cs.AI 13.02.2026 05:00

Forschung

Joint Reward Modeling: Effiziente Bild-Reward-Modelle durch gemeinsames Lernen Reward‑Modelle sind das Herzstück von Reinforcement‑Learning‑From‑Human‑Feedback (RLHF). Sie bestimmen, wie gut generative Modelle menschliche Präferenzen widerspiegeln und gleichzeitig zuverlässig bleiben. Besonders bei komplexen Bild‑Bearbeitungsaufgaben muss ein Reward‑Modell globale semantische Konsistenz und implizite logische Einschränkungen erfassen – weit über die reine lokale Ähnlichkeit hinaus. Aktuelle

arXiv – cs.AI 10.02.2026 05:00

Forschung

LLM-Active Alignment: Nash-Gleichgewicht als Weg zur sicheren KI

In einer neuen Studie wird ein spieltheoretisches Modell vorgestellt, das das Verhalten von großen Sprachmodellen (LLMs) vorhersagen und ge…

arXiv – cs.AI 09.02.2026 05:00

Forschung

DemPO: Sortition-basierte KI-Alignment für repräsentative Werte In einer neuen Studie auf arXiv wird ein Ansatz vorgestellt, der die Werte, die KI-Systeme lernen sollen, demokratisch bestimmen soll. Der sogenannte Democratic Preference Optimization (DemPO) nutzt Sortition – die gleiche Methode, die bei Bürgerforen eingesetzt wird – um aus einer breiten Bevölkerung repräsentative Rater zu ziehen. Dadurch soll die Verzerrung, die bei herkömmlichen RLHF-Methoden entsteht, reduziert werden. Dem

arXiv – cs.AI 06.02.2026 05:00

Forschung

Realzeit‑Ausrichtung von Belohnungsmodellen: Ein neues RLHF‑Framework

Reinforcement Learning from Human Feedback (RLHF) ist ein zentrales Verfahren, um große Sprachmodelle an menschliche Präferenzen anzupassen…

arXiv – cs.AI 02.02.2026 05:00

Forschung

Robuste Statistik: LLMs zuverlässig prüfen trotz fehlerhafter Richter

In einer wegweisenden Studie wird ein neues Hypothesentestverfahren vorgestellt, das es ermöglicht, die Zuverlässigkeit großer Sprachmodell…

arXiv – cs.LG 30.01.2026 05:00

Forschung

Differential Voting: Neue Verlustfunktionen für Präferenzaggregation

In der Welt des Reinforcement Learning mit menschlichem Feedback (RLHF) werden die vielfältigen Präferenzen der Nutzer oft zu einer einzige…

arXiv – cs.AI 28.01.2026 05:00

Forschung

RLHF: Neue Theorie erklärt, warum große Sprachmodelle nach Feedback generalisieren

Reinforcement Learning from Human Feedback (RLHF) hat sich als führende Methode etabliert, um große Sprachmodelle (LLMs) an menschliche Int…

arXiv – cs.LG 26.01.2026 05:00

Forschung

Neuer Actor-Critic-Algorithmus löst Bi-Level-Reinforcement-Learning effizient

In einer kürzlich veröffentlichten Studie wird ein innovativer Ansatz für das Bi‑Level-Reinforcement‑Learning vorgestellt, der die bisherig…

arXiv – cs.LG 26.01.2026 05:00

Forschung

GRADE: Backpropagation statt Policy Gradients für LLM‑Ausrichtung

In der Welt der großen Sprachmodelle (LLMs) dominiert das Reinforcement Learning aus menschlichem Feedback (RLHF) als bevorzugte Methode, u…

arXiv – cs.LG 21.01.2026 05:00

Forschung

RLHF führt dazu, dass Sprachmodelle Sicherheitssignale in Gesprächen ignorieren

In einer neuen Untersuchung auf arXiv wurde gezeigt, dass Sprachmodelle, die mit Reinforcement Learning from Human Feedback (RLHF) trainier…

arXiv – cs.AI 15.01.2026 05:00

Forschung

Von RLHF zu direktem Alignment: Theoretische Einheit für Präferenzlernen LLMs

Die sichere und nützliche Nutzung großer Sprachmodelle hängt davon ab, wie gut sie menschliche Präferenzen widerspiegeln. Während Reinforce…

arXiv – cs.AI 13.01.2026 05:00

Forschung

SPINAL: Wie DPO die Tiefe von Sprachmodellen präzise anpasst

Direct Preference Optimization (DPO) bietet eine skalierbare Alternative zu RLHF, um große Sprachmodelle anhand von Paarpräferenzen auszuri…

arXiv – cs.LG 13.01.2026 05:00

Forschung

AdvJudge‑Zero: Kontroll‑Token kippen LLM‑Judges

In modernen Post‑Training‑Pipelines wie RLHF, DPO und RLAIF spielen Reward‑Modelle und LLM‑as‑a‑Judge‑Systeme eine zentrale Rolle. Sie lief…

arXiv – cs.LG 22.12.2025 05:00

Forschung

KI-gestützte Annotation-Pipelines stabilisieren große Sprachmodelle

In stark regulierten Branchen stoßen große Sprachmodelle (LLMs) immer wieder an ihre Grenzen: Instabilität, inkonsistentes Denken, Halluzin…

arXiv – cs.AI 17.12.2025 05:00

Forschung

Laminar Flow Hypothese: Semantische Turbulenz erkennt Jailbreaks in LLMs

Mit der allgegenwärtigen Verbreitung von Large Language Models (LLMs) wächst die Notwendigkeit, diese Systeme vor gezielten „Jailbreak“-Ang…

arXiv – cs.LG 17.12.2025 05:00

Forschung

Logikbasierte Alternative zu Reward-Modellen: S‑GRPO verbessert RLHF‑Alignment

Reinforcement Learning from Human Feedback (RLHF) ist entscheidend, um große Sprachmodelle an menschliche Werte anzupassen. Dabei hängt die…

arXiv – cs.LG 17.12.2025 05:00

Forschung

Erklärbares RLHF: Trainingdaten finden, Fehler korrigieren

In der jüngsten Veröffentlichung auf arXiv (2512.13837v1) wird ein innovativer Ansatz vorgestellt, der die Qualität von Reinforcement Learn…

arXiv – cs.LG 17.12.2025 05:00

Forschung

LLMs zeigen selektive Ablehnung: Neue Methode zur Audits von Sprachmodellen

In einer aktuellen Studie von Forschern aus dem Bereich der künstlichen Intelligenz wurde gezeigt, dass große Sprachmodelle (LLMs) bei läng…

arXiv – cs.AI 17.12.2025 05:00

Forschung

RPO: Mit reflektiven Hinweisen die On-Policy‑Ausrichtung von Modellen verbessern

Die neue Methode Reflective Preference Optimization (RPO) setzt einen frischen Impuls in der Welt der KI‑Ausrichtung. Während Direct Prefer…

arXiv – cs.AI 16.12.2025 05:00

Forschung

Neue RL-Methode reduziert Sicherheits-Alignment-Steuer ohne Leistungseinbußen

Mit dem neuesten Beitrag auf arXiv (2512.11391v1) wird ein innovatives Verfahren vorgestellt, das die sogenannte „Alignment Tax“ – das Verg…

arXiv – cs.LG 15.12.2025 05:00

Forschung

Neue Gewichtungsstrategien verbessern Präferenzoptimierung von LLMs

Fine‑Tuning ist ein wesentlicher Schritt, um große Sprachmodelle (LLMs) an menschliche Präferenzen anzupassen. Das neue Verfahren Multiple‑…

arXiv – cs.LG 12.12.2025 05:00

Forschung

Neue Algorithmen für konvergente Reinforcement‑Learning‑Modelle: Theorie und Praxis

Eine neue Dissertation liefert ein umfassendes theoretisches Fundament und praxisnahe Algorithmen, die das Gebiet des konformen Reinforceme…

arXiv – cs.LG 12.12.2025 05:00

Forschung

Neues Verfahren NormBT reduziert Distanzbias im BT‑Loss für Reward‑Modelle

In der Welt der großen Sprachmodelle (LLMs) spielt die Ausrichtung von Reward‑Modellen eine entscheidende Rolle, insbesondere im Rahmen von…

arXiv – cs.LG 09.12.2025 05:00

Finde Modelle, Firmen und Themen

RLHF‑Alignment bleibt flach: Gradient‑Analyse enthüllt die Ursache

Personality‑Slider für LLMs: Steuerung von Charaktereigenschaften in Echtzeit

RLHFless: Serverless‑Computing für effizientes RLHF

Neuer Ansatz: Alignment-Weighted DPO stärkt Sicherheit von Sprachmodellen

IR$^3$: Kontrastives Inverse Reinforcement Learning gegen Reward‑Hacking

Regulierung verbessert RLHF: Mehr Stabilität, weniger Reward‑Hacking

Neues Paradigma für medizinische KI-Alignment: ganzheitliche Optimierung

LLM-Active Alignment: Nash-Gleichgewicht als Weg zur sicheren KI

Realzeit‑Ausrichtung von Belohnungsmodellen: Ein neues RLHF‑Framework

Robuste Statistik: LLMs zuverlässig prüfen trotz fehlerhafter Richter

Differential Voting: Neue Verlustfunktionen für Präferenzaggregation

RLHF: Neue Theorie erklärt, warum große Sprachmodelle nach Feedback generalisieren

Neuer Actor-Critic-Algorithmus löst Bi-Level-Reinforcement-Learning effizient

GRADE: Backpropagation statt Policy Gradients für LLM‑Ausrichtung

RLHF führt dazu, dass Sprachmodelle Sicherheitssignale in Gesprächen ignorieren

Von RLHF zu direktem Alignment: Theoretische Einheit für Präferenzlernen LLMs

SPINAL: Wie DPO die Tiefe von Sprachmodellen präzise anpasst

AdvJudge‑Zero: Kontroll‑Token kippen LLM‑Judges

KI-gestützte Annotation-Pipelines stabilisieren große Sprachmodelle

Laminar Flow Hypothese: Semantische Turbulenz erkennt Jailbreaks in LLMs

Logikbasierte Alternative zu Reward-Modellen: S‑GRPO verbessert RLHF‑Alignment

Erklärbares RLHF: Trainingdaten finden, Fehler korrigieren

LLMs zeigen selektive Ablehnung: Neue Methode zur Audits von Sprachmodellen

RPO: Mit reflektiven Hinweisen die On-Policy‑Ausrichtung von Modellen verbessern

Neue RL-Methode reduziert Sicherheits-Alignment-Steuer ohne Leistungseinbußen

Neue Gewichtungsstrategien verbessern Präferenzoptimierung von LLMs

Neue Algorithmen für konvergente Reinforcement‑Learning‑Modelle: Theorie und Praxis

Neues Verfahren NormBT reduziert Distanzbias im BT‑Loss für Reward‑Modelle

🍪 Cookie-Einstellungen