Suche

Finde Modelle, Firmen und Themen

Suche im News-Archiv nach Themen, die du dauerhaft verfolgen willst.

Ergebnisse für “Policy Optimization”
Forschung

<h1>LLM-gestützte Schiffswegvorhersage: ShipTraj‑R1 setzt neue Maßstäbe</h1> <p>Durch die jüngsten Fortschritte im Bereich der Verstärkungsoptimierung von Sprachmodellen hat sich die Fähigkeit großer Sprachmodelle (LLMs) zur logischen Problemlösung deutlich verbessert. Besonders die Methode des Group Relative Policy Optimization (GRPO) hat in verschiedenen Anwendungsfeldern starke Ergebnisse erzielt.</p> <p>Die Anwendung von LLMs auf die Vorhersage von Schiffsrouten blieb bislang weitgehend unerforscht. In

arXiv – cs.AI
Forschung

<h1>LLMs optimieren Hochfrequente Entscheidungen: Normalisierte Belohnungsstrategie</h1> <p>Large Language Models (LLMs) sind das Rückgrat moderner Agenten für sequenzielle Entscheidungen, doch ihre Leistungsfähigkeit lässt bei hochfrequenten Aufgaben nach. In der Regel konzentriert sich die Forschung auf diskrete, eingebettete Szenarien mit seltenen, stark semantisch unterschiedlichen Zuständen – etwa bei der Hausplanung. Solche Ansätze zeigen bei Aufgaben, bei denen sich numerische Zustände ständig, aber

arXiv – cs.AI