KI News. Verstehen, was wichtig wird.

Suche Anmelden

Suche

Finde Modelle, Firmen und Themen

Suche im News-Archiv nach Themen, die du dauerhaft verfolgen willst.

Ergebnisse für “Thompson Sampling”

Duel‑Evolve: Optimierung von LLM‑Ausgaben ohne externe Belohnungen

Ein neues Verfahren namens Duel‑Evolve nutzt die eigenen Präferenzen eines großen Sprachmodells, um seine Ausgaben zu optimieren, ohne auf…

arXiv – cs.LG 26.02.2026 05:00

Neue Bandit-Algorithmen mit Gaussian‑Prior verbessern Lernregret

In einer kürzlich veröffentlichten Studie auf arXiv wird ein neuer Ansatz für Multi‑Armed Bandit‑Probleme vorgestellt, bei denen die Arm‑Be…

arXiv – cs.LG 19.02.2026 05:00

AutoDiscover: Kaltstart‑Lösung im aktiven Lernen mit graphbasiertem Thompson

Systematische Literaturübersichten (SLRs) sind für evidenzbasierte Forschung unverzichtbar, doch die manuelle Vorauswahl von Studien wird z…

arXiv – cs.LG 06.02.2026 05:00

Neue Gewichtungsstrategien verbessern Präferenzoptimierung von LLMs

Fine‑Tuning ist ein wesentlicher Schritt, um große Sprachmodelle (LLMs) an menschliche Präferenzen anzupassen. Das neue Verfahren Multiple‑…

arXiv – cs.LG 12.12.2025 05:00

Neue Bandit-Strategien für Edge-Inferenz: Konstanter Regret

Ein neues arXiv‑Veröffentlichung (2511.10938v1) beleuchtet die Herausforderungen der Edge‑Inference und stellt ein erweitertes Cascade‑Band…

arXiv – cs.LG 17.11.2025 05:00

Neues minimalistisches Bayessches Modell revolutioniert stochastische Optimierung

Wissenschaftler haben ein neues, schlankes Bayessches Rahmenwerk vorgestellt, das die klassische Modellierung von Unsicherheit neu definier…

arXiv – cs.LG 10.09.2025 05:00