Suche nach Direct Preference Optimization

LLMs werden selbstrobust: CoIPO steigert Prompt‑Stabilität

Die neuesten Fortschritte bei großen Sprachmodellen (LLMs) zeigen beeindruckende Leistungen in vielen Aufgabenbereichen. Dennoch sind diese…

arXiv – cs.AI 05.03.2026 05:00

Forschung

Neuer Ansatz: Alignment-Weighted DPO stärkt Sicherheit von Sprachmodellen

In den letzten Jahren haben Techniken wie Supervised Fine‑Tuning (SFT), Reinforcement Learning from Human Feedback (RLHF) und Direct Prefer…

arXiv – cs.AI 26.02.2026 05:00

Forschung

Multi-Objective Alignment steigert Empathie & Sicherheit bei KI-Psychotherapie

Mehr als 1 Milliarde Menschen weltweit leiden an psychischen Erkrankungen, doch der Zugang zu qualifizierter Behandlung bleibt durch Person…

arXiv – cs.LG 19.02.2026 05:00

Praxis

In diesem Tutorial wird ein End‑to‑End‑Workflow für Direct Preference Optimization vorgestellt, mit dem große Sprachmodelle an menschliche Präferenzen angepasst werden können – und das ganz ohne ein Reward‑Modell. Der Ansatz kombiniert TRL’s DPOTrainer mit QLoRA und PEFT, sodass die Präferenzbasierte Ausrichtung auf einer einzigen Colab‑GPU möglich ist. Das Training erfolgt direkt auf dem binarisierten UltraFeedback‑Datensatz, bei dem jedes Prompt ein binäres Feedback erhält. Dadurch lassen

MarkTechPost 13.02.2026 04:32

Forschung

Neuer Ansatz: Autoregressive DPO optimiert Sprachmodelle nach menschlichen Präferenzen

Die jüngste Arbeit auf arXiv präsentiert einen bedeutenden Fortschritt in der Ausrichtung großer Sprachmodelle (LLMs) auf menschliche Vorli…

arXiv – cs.AI 11.02.2026 05:00

Forschung

PEPO: Ensemble‑Optimierung verhindert Überoptimierung ohne Datenverteilung

In der Welt der Präferenzlernen ist die Gefahr der Überoptimierung seit langem bekannt: Modelle neigen dazu, sich zu stark an die Trainings…

arXiv – cs.LG 09.02.2026 05:00

Forschung

Geometrische Anker: Neue Methode stärkt Robustheit bei LLM-Alignment

Eine neue Technik namens Geometric Anchor Preference Optimization (GAPO) verspricht, die Zuverlässigkeit bei der Ausrichtung großer Sprachm…

arXiv – cs.LG 06.02.2026 05:00

Forschung

QuantLRM: Gewichtsanpassungen als Schlüssel zur Quantisierung von LLMs

In der Welt der großen Sprachmodelle (LLMs) gewinnt die Gewichtsanpassung bei der Quantisierung zunehmend an Bedeutung. Forscher haben eine…

arXiv – cs.LG 04.02.2026 05:00

Forschung

ATLAS: Adaptive Agent mit Multi-LLM-Unterstützung steigert Forschungseffizienz

Die neueste Veröffentlichung auf arXiv (2602.02709v1) stellt ATLAS vor – ein adaptives, selbstentwickelndes Forschungsagentensystem, das me…

arXiv – cs.AI 04.02.2026 05:00

Forschung

DPO-Optimierung zeigt Phasenwechsel: Logikleistung schwankt mit β In einer neuen Studie wurde die Direct Preference Optimization (DPO) für drei 7‑B‑Modelle mit offenen Gewichten systematisch untersucht. Dabei wurde der Parameter β, der die Ausrichtung der Modelle steuert, in feinen Schritten variiert, um die Auswirkungen auf die Logikfähigkeit zu beobachten. Bei Mistral zeigte sich ein starkes, nicht‑monotones Verhalten: Die Logikmarge wird nur in einem engen Bereich um β ≈ 10⁻² positiv, au

arXiv – cs.LG 27.01.2026 05:00

Produkt

Fortgeschrittene Feinabstimmung für Multi-Agenten-Orchestrierung im großen Maßstab

Amazon hat neue Feinabstimmungsstrategien für Multi-Agenten-Systeme vorgestellt, die die Effizienz in mehreren Geschäftsbereichen deutlich…

AWS – Machine Learning Blog 16.01.2026 15:51

Forschung

Von RLHF zu direktem Alignment: Theoretische Einheit für Präferenzlernen LLMs

Die sichere und nützliche Nutzung großer Sprachmodelle hängt davon ab, wie gut sie menschliche Präferenzen widerspiegeln. Während Reinforce…

arXiv – cs.AI 13.01.2026 05:00

Forschung

SPINAL: Wie DPO die Tiefe von Sprachmodellen präzise anpasst

Direct Preference Optimization (DPO) bietet eine skalierbare Alternative zu RLHF, um große Sprachmodelle anhand von Paarpräferenzen auszuri…

arXiv – cs.LG 13.01.2026 05:00

Forschung

MixDPO: Präferenzstärke modelliert – neue Methode für pluralistische Alignment

In einer wegweisenden Veröffentlichung präsentiert das Forschungsteam die Mixed Logit Direct Preference Optimization (MixDPO), eine Weitere…

arXiv – cs.LG 13.01.2026 05:00

Aktuell

OpenAI: Von GPT‑4.1 zu GPT‑5.1 – RLVR, Agenten und Token‑Effizienz

Josh McGrath, der Leiter der Post‑Training‑Strategie bei OpenAI, hat die komplette Entwicklung von der Datenaufbereitung bis zur Auslieferu…

Latent Space 31.12.2025 14:00

Forschung

Effizienter Shapley‑Wert für LLM‑Fine‑Tuning: Sprachmodellarithmetik als Lösung

In der Welt der großen Sprachmodelle (LLMs) gilt Daten als genauso wertvoll wie Rechenleistung und Fachkräfte. Während einige Trainingsdate…

arXiv – cs.LG 19.12.2025 05:00

Forschung

LLaDA 2.0: Diffusions‑Sprachmodelle mit 100 Billionen Parametern

LLaDA 2.0, die neueste Generation diskreter Diffusions‑Large‑Language‑Models (dLLM), wurde auf der Plattform arXiv vorgestellt. Mit insgesa…

arXiv – cs.LG 19.12.2025 05:00

Forschung

ReactorFold: KI entdeckt neue Kernreaktor-Designs durch physikalisches Denken

Mit dem neuen Framework ReactorFold wird die Gestaltung von Kernreaktor-Kernen neu definiert. Anstatt in vorgegebenen, von Menschen festgel…

arXiv – cs.LG 19.12.2025 05:00

Forschung

RPO: Mit reflektiven Hinweisen die On-Policy‑Ausrichtung von Modellen verbessern

Die neue Methode Reflective Preference Optimization (RPO) setzt einen frischen Impuls in der Welt der KI‑Ausrichtung. Während Direct Prefer…

arXiv – cs.AI 16.12.2025 05:00

Forschung

DPO steuert Verhalten, nicht Glaubenshaltungen – Ein Blick hinter die Kulissen

Direct Preference Optimization (DPO) gilt als Standardverfahren, um große Sprachmodelle an menschliche Präferenzen anzupassen. Doch bislang…

arXiv – cs.LG 16.12.2025 05:00

Forschung

Neue Gewichtungsstrategien verbessern Präferenzoptimierung von LLMs

Fine‑Tuning ist ein wesentlicher Schritt, um große Sprachmodelle (LLMs) an menschliche Präferenzen anzupassen. Das neue Verfahren Multiple‑…

arXiv – cs.LG 12.12.2025 05:00

Forschung

KI-Assistenz im Gesundheitswesen: Sicherheit durch iterative Präferenzabstimmung

Große Sprachmodelle (LLMs) finden immer häufiger Einsatz in der Medizin, doch ihre sichere und vertrauenswürdige Nutzung bleibt ein entsche…

arXiv – cs.AI 05.12.2025 05:00

Forschung

LLM-Wiederholungsproblem in Produktion gelöst: Studie mehrerer Lösungen

In der Praxis stürzen sich große Sprachmodelle (LLMs) immer wieder in endlose Wiederholungen, was die Leistung von Produktionssystemen star…

arXiv – cs.AI 05.12.2025 05:00

Forschung

FA‑DPO: Robustes Verfahren gegen Präferenzumkehr in RLHF

In der jüngsten Veröffentlichung auf arXiv (Arbeitstitel: „When Human Preferences Flip: An Instance-Dependent Robust Loss for RLHF“) wird e…

arXiv – cs.AI 02.12.2025 05:00

Forschung

TinyLLM: Kleine Sprachmodelle meistern Agentenaufgaben auf Edge-Geräten

In einer neuen Studie von arXiv (2511.22138v1) wird gezeigt, dass kleine Sprachmodelle (SLMs) in der Lage sind, komplexe agentische Aufgabe…

arXiv – cs.LG 01.12.2025 05:00

Forschung

SuperIntelliAgent: Selbstlernender Agent mit kontinuierlichem Wachstum

Ein neues Forschungsprojekt namens SuperIntelliAgent eröffnet einen Weg zu kontinuierlich wachsender Intelligenz. Das System kombiniert ein…

arXiv – cs.AI 01.12.2025 05:00

Forschung

Mehr Präferenzvarianz = bessere DPO-Performance bei LLMs

Direct Preference Optimization (DPO) hat sich als zentrales Verfahren etabliert, um große Sprachmodelle (LLMs) anhand menschlicher Präferen…

arXiv – cs.AI 01.12.2025 05:00

Forschung

Multi-Value Alignment: Mehr Sicherheit für große Sprachmodelle

Mit dem rasanten Fortschritt großer Sprachmodelle (LLMs) wird die Aufgabe, sie an menschliche Werte anzupassen, immer wichtiger. Dabei gilt…

arXiv – cs.LG 25.11.2025 05:00

Forschung

LLM-gestützte Generierung: 77 % mehr Codeabdeckung dank CoverageOptimierung

Mit dem rasanten Fortschritt der Large Language Models (LLMs) gewinnt die Anwendung dieser Technologie im Hardware‑Design immer mehr an Bed…

arXiv – cs.LG 21.11.2025 05:00

Forschung

Pluralistische Werte im LLM-Alignment: Sicherheit, Inklusivität & Modellverhalten

In einer Zeit, in der große Sprachmodelle (LLMs) zunehmend mit menschlichem Feedback trainiert werden, um sicherer und wertorientierter zu…

arXiv – cs.AI 19.11.2025 05:00

Finde Modelle, Firmen und Themen

LLMs werden selbstrobust: CoIPO steigert Prompt‑Stabilität

Neuer Ansatz: Alignment-Weighted DPO stärkt Sicherheit von Sprachmodellen

Multi-Objective Alignment steigert Empathie & Sicherheit bei KI-Psychotherapie

Neuer Ansatz: Autoregressive DPO optimiert Sprachmodelle nach menschlichen Präferenzen

PEPO: Ensemble‑Optimierung verhindert Überoptimierung ohne Datenverteilung

Geometrische Anker: Neue Methode stärkt Robustheit bei LLM-Alignment

QuantLRM: Gewichtsanpassungen als Schlüssel zur Quantisierung von LLMs

ATLAS: Adaptive Agent mit Multi-LLM-Unterstützung steigert Forschungseffizienz

Fortgeschrittene Feinabstimmung für Multi-Agenten-Orchestrierung im großen Maßstab

Von RLHF zu direktem Alignment: Theoretische Einheit für Präferenzlernen LLMs

SPINAL: Wie DPO die Tiefe von Sprachmodellen präzise anpasst

MixDPO: Präferenzstärke modelliert – neue Methode für pluralistische Alignment

OpenAI: Von GPT‑4.1 zu GPT‑5.1 – RLVR, Agenten und Token‑Effizienz

Effizienter Shapley‑Wert für LLM‑Fine‑Tuning: Sprachmodellarithmetik als Lösung

LLaDA 2.0: Diffusions‑Sprachmodelle mit 100 Billionen Parametern

ReactorFold: KI entdeckt neue Kernreaktor-Designs durch physikalisches Denken

RPO: Mit reflektiven Hinweisen die On-Policy‑Ausrichtung von Modellen verbessern

DPO steuert Verhalten, nicht Glaubenshaltungen – Ein Blick hinter die Kulissen

Neue Gewichtungsstrategien verbessern Präferenzoptimierung von LLMs

KI-Assistenz im Gesundheitswesen: Sicherheit durch iterative Präferenzabstimmung

LLM-Wiederholungsproblem in Produktion gelöst: Studie mehrerer Lösungen

FA‑DPO: Robustes Verfahren gegen Präferenzumkehr in RLHF

TinyLLM: Kleine Sprachmodelle meistern Agentenaufgaben auf Edge-Geräten

SuperIntelliAgent: Selbstlernender Agent mit kontinuierlichem Wachstum

Mehr Präferenzvarianz = bessere DPO-Performance bei LLMs

Multi-Value Alignment: Mehr Sicherheit für große Sprachmodelle

LLM-gestützte Generierung: 77 % mehr Codeabdeckung dank CoverageOptimierung

Pluralistische Werte im LLM-Alignment: Sicherheit, Inklusivität & Modellverhalten

🍪 Cookie-Einstellungen

LLaDA 2.0: Diffusions‑Sprachmodelle mit 100 Billionen Parametern

LLM-gestützte Generierung: 77 % mehr Codeabdeckung dank CoverageOptimierung