Suche

Finde Modelle, Firmen und Themen

Suche im News-Archiv nach Themen, die du dauerhaft verfolgen willst.

Ergebnisse für “GRPO”
Forschung

<h1>LLM-gestützte Schiffswegvorhersage: ShipTraj‑R1 setzt neue Maßstäbe</h1> <p>Durch die jüngsten Fortschritte im Bereich der Verstärkungsoptimierung von Sprachmodellen hat sich die Fähigkeit großer Sprachmodelle (LLMs) zur logischen Problemlösung deutlich verbessert. Besonders die Methode des Group Relative Policy Optimization (GRPO) hat in verschiedenen Anwendungsfeldern starke Ergebnisse erzielt.</p> <p>Die Anwendung von LLMs auf die Vorhersage von Schiffsrouten blieb bislang weitgehend unerforscht. In

arXiv – cs.AI
Forschung

<h1>CoT-Distillation: Curriculum Learning mit strukturiertem Maskieren & GRPO</h1> <p>Die Übertragung von Chain‑of‑Thought‑(CoT)‑Logik aus großen Sprachmodellen in kompakte Nachschreibermodelle stellt ein zentrales Problem dar: die ausführlichen Begründungen der Lehrermodelle sind für kleinere Modelle oft zu umfangreich, um sie exakt zu replizieren. Traditionelle Ansätze reduzieren die Logik auf einen einzigen Schritt, wodurch die wertvolle Interpretierbarkeit verloren geht.</p> <p>In der neuen Studie wird

arXiv – cs.AI