Suche nach Menschliche Werte

VISA: Präzise Werteanpassung von LLMs ohne Qualitätsverlust

Ein neues Verfahren namens VISA (Value Injection via Shielded Adaptation) verspricht, Large Language Models (LLMs) genauer an menschliche W…

arXiv – cs.AI 06.03.2026 05:00

Forschung

PromptCD: Testzeit-Verhaltensverbesserung durch Polarisations-Prompt-Decoding

Ein neuer Ansatz namens PromptCD verspricht, KI-Modelle ohne zusätzliche Trainingsschritte an menschliche Werte anzupassen. Während bisheri…

arXiv – cs.AI 25.02.2026 05:00

Forschung

Studierende fordern menschliche Werte bei KI-Bewertung: Fairness, Vertrauen

In einer aktuellen Untersuchung haben 27 Informatikstudenten ihre Eindrücke von KI‑Bewertungssystemen in einem Abschlussprojekt mit blockba…

arXiv – cs.AI 10.02.2026 05:00

Forschung

Logikbasierte Alternative zu Reward-Modellen: S‑GRPO verbessert RLHF‑Alignment

Reinforcement Learning from Human Feedback (RLHF) ist entscheidend, um große Sprachmodelle an menschliche Werte anzupassen. Dabei hängt die…

arXiv – cs.LG 17.12.2025 05:00

Forschung

KI-Alignment neu gedacht: Syntropische Agenten statt festgelegter Werte

In einer wegweisenden Arbeit wird das Konzept des KI‑Alignments neu definiert. Statt menschliche Werte in feste Regeln zu kodieren, schlägt…

arXiv – cs.AI 04.12.2025 05:00

Forschung

Multi-Value Alignment: Mehr Sicherheit für große Sprachmodelle

Mit dem rasanten Fortschritt großer Sprachmodelle (LLMs) wird die Aufgabe, sie an menschliche Werte anzupassen, immer wichtiger. Dabei gilt…

arXiv – cs.LG 25.11.2025 05:00

Forschung

Prompt-basierte Werteausrichtung: Neue Methode für Sprachmodelle

In einer Zeit, in der große Sprachmodelle immer häufiger in sensiblen Anwendungen eingesetzt werden, ist die Ausrichtung auf menschliche We…

arXiv – cs.AI 24.11.2025 05:00

Forschung

FIRM: Federated In-client Multi-objective Alignment für LLMs – effizienter Ansatz

In einer Zeit, in der große Sprachmodelle (LLMs) immer stärker in den Alltag integriert werden, stellt die Abstimmung dieser Modelle auf me…

arXiv – cs.LG 24.11.2025 05:00

Forschung

Testzeit-Alignment: Präzise Steuerung von KI-Agenten ohne Retraining Die Herausforderung, KI-Agenten in komplexen, dynamischen Umgebungen an menschliche Werte zu binden, wächst stetig. Agenten, die ausschließlich auf die Maximierung ihrer Belohnungsfunktion trainiert werden, können dabei schädliches Verhalten entwickeln. Besonders bei vortrainierten Modellen ist ein erneutes Training teuer und zeitaufwendig, während die Vielfalt und potenzielle Konflikte ethischer Werte die Ausrichtung zusätzlich

arXiv – cs.AI 17.11.2025 05:00

Forschung

Unschärfe-gesteuerte Checkpoint-Auswahl verbessert RL-Fine‑Tuning von LLMs

Reinforcement‑Learning‑Fine‑Tuning (RL‑FT) ist ein entscheidender Schritt, um große Sprachmodelle (LLMs) an menschliche Werte anzupassen. G…

arXiv – cs.LG 14.11.2025 05:00

Forschung

Neues Paradigma: „Model Raising“ – Werte von Anfang an in KI einbetten

Eine aktuelle Veröffentlichung auf arXiv (2511.09287v1) ruft zu einem grundlegenden Wandel in der KI-Entwicklung auf. Der Autor schlägt vor…

arXiv – cs.AI 13.11.2025 05:00

Forschung

RLHF-Umfrage: Kulturelle, multimodale und schnelle KI-Ausrichtung

Reinforcement Learning from Human Feedback (RLHF) ist seit langem die bevorzugte Methode, um große Sprachmodelle (LLMs) an menschliche Wert…

arXiv – cs.LG 07.11.2025 05:00

Forschung

Neues ethisches Entscheidungsmodell verbessert Wertangleichung von LLMs weltweit

Eine neue Studie aus dem arXiv-Repository präsentiert ein innovatives ethisches Entscheidungsparadigma, das darauf abzielt, große Sprachmod…

arXiv – cs.AI 05.11.2025 05:00

Forschung

Neues COUPLE-Framework steuert pluralistische Werte in Sprachmodellen

Mit der zunehmenden Verbreitung großer Sprachmodelle in Anwendungen, die Menschen aus unterschiedlichen Kulturen, Gemeinschaften und Bevölk…

arXiv – cs.AI 22.10.2025 05:00

Forschung

KI neu gedacht: Werteorientierung als dynamisches, adaptives Ziel

Ein neues arXiv‑Paper (2508.17104v1) wirft einen frischen Blick auf die Frage, wie Künstliche Intelligenz menschliche Werte einbettet und a…

arXiv – cs.AI 26.08.2025 05:00

Forschung

PersRM‑R1: Individuelle Belohnungsmodelle mit Reinforcement Learning In der Welt der großen Sprachmodelle (LLMs) spielen Reward‑Models (RMs) eine zentrale Rolle, indem sie die Ausgaben der Modelle an menschliche Werte anpassen. Doch bisher konnten RMs kaum die feinen, persönlichen Präferenzen der Nutzer erfassen, besonders wenn nur wenige Daten vorliegen und die Anwendungsbereiche vielfältig sind. Mit PersRM‑R1 wird dieses Problem angegangen. Das neue Framework ist das erste, das auf einer rea

arXiv – cs.AI 21.08.2025 05:00

Forschung

LLMs als moralische Assistenten: Bewertung ihrer Entscheidungsfähigkeit

Die rasante Verbreitung großer Sprachmodelle hat in der Forschung neue Fragen zu ihrer moralischen Leistungsfähigkeit aufgeworfen. Obwohl z…

arXiv – cs.AI 19.08.2025 05:00

Finde Modelle, Firmen und Themen

VISA: Präzise Werteanpassung von LLMs ohne Qualitätsverlust

PromptCD: Testzeit-Verhaltensverbesserung durch Polarisations-Prompt-Decoding

Studierende fordern menschliche Werte bei KI-Bewertung: Fairness, Vertrauen

Logikbasierte Alternative zu Reward-Modellen: S‑GRPO verbessert RLHF‑Alignment

KI-Alignment neu gedacht: Syntropische Agenten statt festgelegter Werte

Multi-Value Alignment: Mehr Sicherheit für große Sprachmodelle

Prompt-basierte Werteausrichtung: Neue Methode für Sprachmodelle

FIRM: Federated In-client Multi-objective Alignment für LLMs – effizienter Ansatz

Unschärfe-gesteuerte Checkpoint-Auswahl verbessert RL-Fine‑Tuning von LLMs

Neues Paradigma: „Model Raising“ – Werte von Anfang an in KI einbetten

RLHF-Umfrage: Kulturelle, multimodale und schnelle KI-Ausrichtung

Neues ethisches Entscheidungsmodell verbessert Wertangleichung von LLMs weltweit

Neues COUPLE-Framework steuert pluralistische Werte in Sprachmodellen

KI neu gedacht: Werteorientierung als dynamisches, adaptives Ziel

LLMs als moralische Assistenten: Bewertung ihrer Entscheidungsfähigkeit

🍪 Cookie-Einstellungen