KI News: Kurz und klar.

Anmelden

KI News: Kurz und klar.

KI News: Kurz und klar.

Neueste Heute Diese Woche

Zeitraumfilter wirken auf die Hauptliste unten.

Themen: Alle for and the with via models learning agents model data reasoning language

📊 Unsere Analyse

Alle Analysen →

📊 Tagesanalyse ✓ Original 3 Min.

<h2>KI‑Wellen: Effizienz, Agenten und ethische Kontrolle – ein Tag der Durchbrüche</h2>

Mehr Transparenz, mehr Kontrolle, mehr Verantwortung: Heute zeigen multimodale Modelle, Agenten und neue Sicherheitsansätze, dass KI nicht mehr nur ein Werkzeug, sondern ein komplexes Ökosystem ist. Der 11. Februar 2026 war ein Tag, an dem die KI‑For…

11.02.2026 07:04 Weiterlesen

GOPO: Optimierung von Policies mit Rang-basierten Belohnungen

Die neue Methode GOPO (Group Ordinal Policy Optimization) nutzt bei der Optimierung von KI-Modellen ausschließlich die Rangfolge von Belohnungen und ignoriert deren absolute Werte. Dadurch wird die Kluft zwischen dem, was ein Belohnungsmodell lernt – relative Präferenzen – und dem, was die Policy‑Optimierung tatsächlich benötigt – absolute Belohnungen – geschlossen. Besonders in Bereichen, in denen Belohnungen nicht verifizierbar sind, wie z. B. Zusammenfassungen, Befolgen von Anweisungen oder Chat‑Completion, führt dies zu deutlich besseren Ergebnissen. GOPO erzielt höhere Trainings‑ und Validierungsbelohnungen, liefert über die meisten Zwischenschritte hinweg bessere Bewertungen durch LLM‑Judges und erreicht vergleichbare Policy‑Qualität in deutlich weniger Trainingsschritten als der bisherige Ansatz GRPO. Die Autoren demonstrieren diese Verbesserungen über verschiedene Aufgaben und Modellgrößen hinweg.

arXiv – cs.AI

05.02.2026 05:00