Suche

Finde Modelle, Firmen und Themen

Suche im News-Archiv nach Themen, die du dauerhaft verfolgen willst.

Ergebnisse für “Chain-of-Thought”
Forschung

<h1>CoT-Distillation: Curriculum Learning mit strukturiertem Maskieren & GRPO</h1> <p>Die Übertragung von Chain‑of‑Thought‑(CoT)‑Logik aus großen Sprachmodellen in kompakte Nachschreibermodelle stellt ein zentrales Problem dar: die ausführlichen Begründungen der Lehrermodelle sind für kleinere Modelle oft zu umfangreich, um sie exakt zu replizieren. Traditionelle Ansätze reduzieren die Logik auf einen einzigen Schritt, wodurch die wertvolle Interpretierbarkeit verloren geht.</p> <p>In der neuen Studie wird

arXiv – cs.AI
Forschung

<p>Joint Reward Modeling: Effiziente Bild-Reward-Modelle durch gemeinsames Lernen</p> <p>Reward‑Modelle sind das Herzstück von Reinforcement‑Learning‑From‑Human‑Feedback (RLHF). Sie bestimmen, wie gut generative Modelle menschliche Präferenzen widerspiegeln und gleichzeitig zuverlässig bleiben. Besonders bei komplexen Bild‑Bearbeitungsaufgaben muss ein Reward‑Modell globale semantische Konsistenz und implizite logische Einschränkungen erfassen – weit über die reine lokale Ähnlichkeit hinaus.</p> <p>Aktuelle

arXiv – cs.AI
Forschung

Robustheit von Reasoning-LLMs: Wie stark sind ihre Gedankenketten gegen Störungen?<br/><p>Reasoning-LLMs erzeugen Schritt-für-Schritt-Gedankenketten, die die Leistung bei komplexen Aufgaben steigern und die Transparenz des Denkprozesses erhöhen. Doch wie widerstandsfähig sind diese Ketten, wenn sie gezielt gestört werden? Diese Frage beantwortet die neue Studie, die einen kontrollierten Evaluationsrahmen entwickelt hat, um die eigenen Gedankenketten eines Modells zu festen Zeitpunkten zu perturbieren.</p><p

arXiv – cs.AI