Suche nach Preference Optimization

LLMs werden selbstrobust: CoIPO steigert Prompt‑Stabilität

Die neuesten Fortschritte bei großen Sprachmodellen (LLMs) zeigen beeindruckende Leistungen in vielen Aufgabenbereichen. Dennoch sind diese…

arXiv – cs.AI 05.03.2026 05:00

Forschung

Neues Verfahren: LLMs sicherer machen durch gezielte Repräsentationslöschung

Moderne Sprachmodelle, die auf riesigen Webdaten trainiert werden, können gefährliche Inhalte erzeugen. Bestehende Schutzmaßnahmen wie DPO…

arXiv – cs.LG 02.03.2026 05:00

Forschung

Neuer Ansatz: Alignment-Weighted DPO stärkt Sicherheit von Sprachmodellen

In den letzten Jahren haben Techniken wie Supervised Fine‑Tuning (SFT), Reinforcement Learning from Human Feedback (RLHF) und Direct Prefer…

arXiv – cs.AI 26.02.2026 05:00

Forschung

GOPO: Strategie für Aufgabenorientierte Dialoge steigert Kundensupport um 10 %

Große Sprachmodelle haben das Potenzial, Kundensupportsysteme zu revolutionieren, doch bisherige Trainingsmethoden – die sich auf tokenbasi…

arXiv – cs.AI 19.02.2026 05:00

Forschung

Multi-Objective Alignment steigert Empathie & Sicherheit bei KI-Psychotherapie

Mehr als 1 Milliarde Menschen weltweit leiden an psychischen Erkrankungen, doch der Zugang zu qualifizierter Behandlung bleibt durch Person…

arXiv – cs.LG 19.02.2026 05:00

Forschung

IntelliAsk: KI-gestützte Fragenoptimierung steigert Review-Qualität

In der Peer‑Review‑Welt sind tiefgründige, evidenzbasierte Fragen entscheidend. Bisher erzeugen jedoch die meisten großen Sprachmodelle (LL…

arXiv – cs.AI 19.02.2026 05:00

Praxis

In diesem Tutorial wird ein End‑to‑End‑Workflow für Direct Preference Optimization vorgestellt, mit dem große Sprachmodelle an menschliche Präferenzen angepasst werden können – und das ganz ohne ein Reward‑Modell. Der Ansatz kombiniert TRL’s DPOTrainer mit QLoRA und PEFT, sodass die Präferenzbasierte Ausrichtung auf einer einzigen Colab‑GPU möglich ist. Das Training erfolgt direkt auf dem binarisierten UltraFeedback‑Datensatz, bei dem jedes Prompt ein binäres Feedback erhält. Dadurch lassen

MarkTechPost 13.02.2026 04:32

Forschung

DLLM-Searcher: Effiziente Suchagenten mit Diffusions-LLM

Die jüngste Veröffentlichung auf arXiv (2602.07035v1) präsentiert DLLM-Searcher, ein neues Optimierungsframework, das Diffusions‑Large‑Lang…

arXiv – cs.AI 10.02.2026 05:00

Forschung

AVERE: Emotionserkennung in Audio-Video-Daten durch Präferenzoptimierung

Emotionserkennung ist ein entscheidender Baustein für sozial intelligente Agenten. Trotz der beeindruckenden Leistungen multimodaler Large…

arXiv – cs.LG 10.02.2026 05:00

Forschung

Neuer Ansatz: Autoregressive DPO optimiert Sprachmodelle nach menschlichen Präferenzen

Die jüngste Arbeit auf arXiv präsentiert einen bedeutenden Fortschritt in der Ausrichtung großer Sprachmodelle (LLMs) auf menschliche Vorli…

arXiv – cs.AI 11.02.2026 05:00

Forschung

PEPO: Ensemble‑Optimierung verhindert Überoptimierung ohne Datenverteilung

In der Welt der Präferenzlernen ist die Gefahr der Überoptimierung seit langem bekannt: Modelle neigen dazu, sich zu stark an die Trainings…

arXiv – cs.LG 09.02.2026 05:00

Forschung

DemPO: Sortition-basierte KI-Alignment für repräsentative Werte In einer neuen Studie auf arXiv wird ein Ansatz vorgestellt, der die Werte, die KI-Systeme lernen sollen, demokratisch bestimmen soll. Der sogenannte Democratic Preference Optimization (DemPO) nutzt Sortition – die gleiche Methode, die bei Bürgerforen eingesetzt wird – um aus einer breiten Bevölkerung repräsentative Rater zu ziehen. Dadurch soll die Verzerrung, die bei herkömmlichen RLHF-Methoden entsteht, reduziert werden. Dem

arXiv – cs.AI 06.02.2026 05:00

Forschung

Geometrische Anker: Neue Methode stärkt Robustheit bei LLM-Alignment

Eine neue Technik namens Geometric Anchor Preference Optimization (GAPO) verspricht, die Zuverlässigkeit bei der Ausrichtung großer Sprachm…

arXiv – cs.LG 06.02.2026 05:00

Forschung

QuantLRM: Gewichtsanpassungen als Schlüssel zur Quantisierung von LLMs

In der Welt der großen Sprachmodelle (LLMs) gewinnt die Gewichtsanpassung bei der Quantisierung zunehmend an Bedeutung. Forscher haben eine…

arXiv – cs.LG 04.02.2026 05:00

Forschung

ATLAS: Adaptive Agent mit Multi-LLM-Unterstützung steigert Forschungseffizienz

Die neueste Veröffentlichung auf arXiv (2602.02709v1) stellt ATLAS vor – ein adaptives, selbstentwickelndes Forschungsagentensystem, das me…

arXiv – cs.AI 04.02.2026 05:00

Forschung

KEPO: Wissensbasierte Präferenzoptimierung für Reinforcement Learning

Reinforcement Learning (RL) hat sich als vielversprechendes Verfahren etabliert, um große Sprach- und Vision‑Language‑Modelle explizit zu R…

arXiv – cs.AI 03.02.2026 05:00

Forschung

DPO-Optimierung zeigt Phasenwechsel: Logikleistung schwankt mit β In einer neuen Studie wurde die Direct Preference Optimization (DPO) für drei 7‑B‑Modelle mit offenen Gewichten systematisch untersucht. Dabei wurde der Parameter β, der die Ausrichtung der Modelle steuert, in feinen Schritten variiert, um die Auswirkungen auf die Logikfähigkeit zu beobachten. Bei Mistral zeigte sich ein starkes, nicht‑monotones Verhalten: Die Logikmarge wird nur in einem engen Bereich um β ≈ 10⁻² positiv, au

arXiv – cs.LG 27.01.2026 05:00

Produkt

Fortgeschrittene Feinabstimmung für Multi-Agenten-Orchestrierung im großen Maßstab

Amazon hat neue Feinabstimmungsstrategien für Multi-Agenten-Systeme vorgestellt, die die Effizienz in mehreren Geschäftsbereichen deutlich…

AWS – Machine Learning Blog 16.01.2026 15:51

Forschung

LLMdoctor: Token‑basierte Optimierung für effiziente Test‑Zeit‑Anpassung von LLMs

Die Herausforderung, große Sprachmodelle (LLMs) an menschliche Präferenzen anzupassen, bleibt ein zentrales Thema in der KI-Forschung. Trad…

arXiv – cs.AI 16.01.2026 05:00

Forschung

Von RLHF zu direktem Alignment: Theoretische Einheit für Präferenzlernen LLMs

Die sichere und nützliche Nutzung großer Sprachmodelle hängt davon ab, wie gut sie menschliche Präferenzen widerspiegeln. Während Reinforce…

arXiv – cs.AI 13.01.2026 05:00

Forschung

SPINAL: Wie DPO die Tiefe von Sprachmodellen präzise anpasst

Direct Preference Optimization (DPO) bietet eine skalierbare Alternative zu RLHF, um große Sprachmodelle anhand von Paarpräferenzen auszuri…

arXiv – cs.LG 13.01.2026 05:00

Forschung

MixDPO: Präferenzstärke modelliert – neue Methode für pluralistische Alignment

In einer wegweisenden Veröffentlichung präsentiert das Forschungsteam die Mixed Logit Direct Preference Optimization (MixDPO), eine Weitere…

arXiv – cs.LG 13.01.2026 05:00

Aktuell

OpenAI: Von GPT‑4.1 zu GPT‑5.1 – RLVR, Agenten und Token‑Effizienz

Josh McGrath, der Leiter der Post‑Training‑Strategie bei OpenAI, hat die komplette Entwicklung von der Datenaufbereitung bis zur Auslieferu…

Latent Space 31.12.2025 14:00

Forschung

Effizienter Shapley‑Wert für LLM‑Fine‑Tuning: Sprachmodellarithmetik als Lösung

In der Welt der großen Sprachmodelle (LLMs) gilt Daten als genauso wertvoll wie Rechenleistung und Fachkräfte. Während einige Trainingsdate…

arXiv – cs.LG 19.12.2025 05:00

Forschung

LLaDA 2.0: Diffusions‑Sprachmodelle mit 100 Billionen Parametern

LLaDA 2.0, die neueste Generation diskreter Diffusions‑Large‑Language‑Models (dLLM), wurde auf der Plattform arXiv vorgestellt. Mit insgesa…

arXiv – cs.LG 19.12.2025 05:00

Forschung

ReactorFold: KI entdeckt neue Kernreaktor-Designs durch physikalisches Denken

Mit dem neuen Framework ReactorFold wird die Gestaltung von Kernreaktor-Kernen neu definiert. Anstatt in vorgegebenen, von Menschen festgel…

arXiv – cs.LG 19.12.2025 05:00

Forschung

RPO: Mit reflektiven Hinweisen die On-Policy‑Ausrichtung von Modellen verbessern

Die neue Methode Reflective Preference Optimization (RPO) setzt einen frischen Impuls in der Welt der KI‑Ausrichtung. Während Direct Prefer…

arXiv – cs.AI 16.12.2025 05:00

Forschung

DPO steuert Verhalten, nicht Glaubenshaltungen – Ein Blick hinter die Kulissen

Direct Preference Optimization (DPO) gilt als Standardverfahren, um große Sprachmodelle an menschliche Präferenzen anzupassen. Doch bislang…

arXiv – cs.LG 16.12.2025 05:00

Forschung

Neue Gewichtungsstrategien verbessern Präferenzoptimierung von LLMs

Fine‑Tuning ist ein wesentlicher Schritt, um große Sprachmodelle (LLMs) an menschliche Präferenzen anzupassen. Das neue Verfahren Multiple‑…

arXiv – cs.LG 12.12.2025 05:00

Forschung

Neue Algorithmen für konvergente Reinforcement‑Learning‑Modelle: Theorie und Praxis

Eine neue Dissertation liefert ein umfassendes theoretisches Fundament und praxisnahe Algorithmen, die das Gebiet des konformen Reinforceme…

arXiv – cs.LG 12.12.2025 05:00

Finde Modelle, Firmen und Themen

LLMs werden selbstrobust: CoIPO steigert Prompt‑Stabilität

Neues Verfahren: LLMs sicherer machen durch gezielte Repräsentationslöschung

Neuer Ansatz: Alignment-Weighted DPO stärkt Sicherheit von Sprachmodellen

GOPO: Strategie für Aufgabenorientierte Dialoge steigert Kundensupport um 10 %

Multi-Objective Alignment steigert Empathie & Sicherheit bei KI-Psychotherapie

IntelliAsk: KI-gestützte Fragenoptimierung steigert Review-Qualität

DLLM-Searcher: Effiziente Suchagenten mit Diffusions-LLM

AVERE: Emotionserkennung in Audio-Video-Daten durch Präferenzoptimierung

Neuer Ansatz: Autoregressive DPO optimiert Sprachmodelle nach menschlichen Präferenzen

PEPO: Ensemble‑Optimierung verhindert Überoptimierung ohne Datenverteilung

Geometrische Anker: Neue Methode stärkt Robustheit bei LLM-Alignment

QuantLRM: Gewichtsanpassungen als Schlüssel zur Quantisierung von LLMs

ATLAS: Adaptive Agent mit Multi-LLM-Unterstützung steigert Forschungseffizienz

KEPO: Wissensbasierte Präferenzoptimierung für Reinforcement Learning

Fortgeschrittene Feinabstimmung für Multi-Agenten-Orchestrierung im großen Maßstab

LLMdoctor: Token‑basierte Optimierung für effiziente Test‑Zeit‑Anpassung von LLMs

Von RLHF zu direktem Alignment: Theoretische Einheit für Präferenzlernen LLMs

SPINAL: Wie DPO die Tiefe von Sprachmodellen präzise anpasst

MixDPO: Präferenzstärke modelliert – neue Methode für pluralistische Alignment

OpenAI: Von GPT‑4.1 zu GPT‑5.1 – RLVR, Agenten und Token‑Effizienz

Effizienter Shapley‑Wert für LLM‑Fine‑Tuning: Sprachmodellarithmetik als Lösung

LLaDA 2.0: Diffusions‑Sprachmodelle mit 100 Billionen Parametern

ReactorFold: KI entdeckt neue Kernreaktor-Designs durch physikalisches Denken

RPO: Mit reflektiven Hinweisen die On-Policy‑Ausrichtung von Modellen verbessern

DPO steuert Verhalten, nicht Glaubenshaltungen – Ein Blick hinter die Kulissen

Neue Gewichtungsstrategien verbessern Präferenzoptimierung von LLMs

Neue Algorithmen für konvergente Reinforcement‑Learning‑Modelle: Theorie und Praxis

🍪 Cookie-Einstellungen

GOPO: Strategie für Aufgabenorientierte Dialoge steigert Kundensupport um 10 %

LLaDA 2.0: Diffusions‑Sprachmodelle mit 100 Billionen Parametern