Suche

Finde Modelle, Firmen und Themen

Suche im News-Archiv nach Themen, die du dauerhaft verfolgen willst.

Ergebnisse für “LLM-Logik”
Forschung

<p>ALIGN: Delegation mit Leistungsgarantien steigert LLM-Logik</p> <p>Die Leistung von großen Sprachmodellen (LLMs) bei komplexen Logikaufgaben bleibt oft hinter den Erwartungen zurück, wenn sie auf einen einzigen Generierungs- und Auswahlprozess angewiesen sind. Inferenzzeit-Ensemble-Methoden können die Genauigkeit verbessern, indem sie verschiedene Denkpfade erfassen oder mehrere Kandidaten aggregieren, behandeln diese jedoch meist unabhängig voneinander und bieten keine formalen Garantien, dass das Ensem

arXiv – cs.LG
Forschung

<p>LLM-Logik neu gedacht: PoT steigert Reasoning um 50 % bei LiveCodeBench</p> <p>Ein neues Verfahren namens Policy of Thoughts (PoT) hat die Art und Weise, wie große Sprachmodelle (LLMs) komplexe, langanhaltende Aufgaben lösen, grundlegend verändert. Während herkömmliche Modelle bei tiefgreifenden Rechenaufgaben oft an ihre Grenzen stoßen, nutzt PoT die Idee, dass Intelligenz aus dem ständigen Lernen an Fehlern entsteht.</p> <p>PoT betrachtet das Denken als einen Online-Optimierungsprozess innerhalb einer

arXiv – cs.AI
Forschung

<h1>ReasonBENCH: Benchmark für Stabilität von LLM-Logik</h1> <p>In der heutigen KI-Landschaft werden große Sprachmodelle (LLMs) vermehrt in Bereichen eingesetzt, in denen mehrstufiges Problemlösen und „Chain-of-Thought“-Logik entscheidend sind. Trotz dieser Bedeutung konzentrieren sich die meisten Evaluierungen bislang ausschließlich auf die Genauigkeit einer einzelnen Ausführung und vernachlässigen die inhärente Unsicherheit, die durch stochastische Decodierung entsteht. Das führt zu einer Blindstelle: Ent

arXiv – cs.AI
Forschung

<p>Entropiebasierte Verstärkungslern-Strategie verbessert LLM-Logik</p> <p>Forscher haben ein neues Verstärkungslernverfahren entwickelt, das die Fähigkeit großer Sprachmodelle (LLMs) zur logischen Schlussfolgerung deutlich steigert. Das Verfahren, bekannt als RLVR, nutzt verifizierbare Belohnungen, um die Genauigkeit der Modelle zu erhöhen. Ein häufiges Problem bei dieser Methode ist jedoch die Entropie-Kollaps, bei dem die Exploration der Policy eingeschränkt wird und damit die Problemlösungskapazität beg

arXiv – cs.AI