Suche nach Pass@1 | meineki.news

BeamPERL: RL mit verifizierbaren Belohnungen stärkt physikalisches Denken in kompakteren LLMs

Ein neues Verfahren namens BeamPERL nutzt Reinforcement Learning mit harten, verifizierbaren Belohnungen, um ein 1,5‑Billionen‑Parameter‑Mo…

arXiv – cs.AI 05.03.2026 05:00

Forschung

LemmaBench: Live-Benchmark für LLMs in der mathematischen Forschung

Forscher haben ein neues Benchmark-Tool namens LemmaBench vorgestellt, das die Leistungsfähigkeit von großen Sprachmodellen (LLMs) in der m…

arXiv – cs.AI 02.03.2026 05:00

Forschung

Selbstvertrauen in RL führt zu Fehlern – asymmetrische Strafen helfen

In der Welt der großen Sprachmodelle (LLMs) hat sich Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) als führendes Verfahren…

arXiv – cs.AI 26.02.2026 05:00

Forschung

EnterpriseGym Corecraft: KI-Agenten lernen in realitätsnahen RL-Umgebungen

Surge AI hat mit der Einführung von Corecraft die erste Umgebung der EnterpriseGym-Suite vorgestellt. Corecraft simuliert ein voll funktion…

arXiv – cs.AI 19.02.2026 05:00

Forschung

ThinkRouter: Effizientes Denken durch Routing zwischen latenter und diskreter Ebene

Eine neue Veröffentlichung auf arXiv (2602.11683v1) präsentiert ThinkRouter, ein innovatives Verfahren, das die Effizienz von KI‑Reasoning…

arXiv – cs.AI 13.02.2026 05:00

Forschung

Meta-Erfahrung in LLMs: Neue Lernmethode steigert Reinforcement Learning

Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) hat sich als wirkungsvolle Technik zur Verbesserung der Denkfähigkeiten große…

arXiv – cs.AI 12.02.2026 05:00

Forschung

Agentische Systeme: Zufälligkeit macht Pass@1‑Ergebnisse unzuverlässig Eine neue Studie auf arXiv (2602.07150v1) untersucht die Stabilität von Pass@1‑Messungen bei agentischen KI‑Systemen. Dabei wurden 60.000 Trajektorien auf dem Benchmark SWE‑Bench‑Verified gesammelt, der drei unterschiedlichen Modellen und zwei verschiedenen Scaffolds entspricht. Die Ergebnisse zeigen, dass die Pass@1‑Werte, die üblicherweise aus einem einzigen Durchlauf berechnet werden, stark variieren. Abhängig von der

arXiv – cs.LG 10.02.2026 05:00

Forschung

Verbessern Sie LLM‑Logik: Präzise Fehlerstrafe mit Prozess‑überwachtem RL

Reinforcement Learning (RL) hat sich als kraftvolles Werkzeug zur Steigerung der Denkfähigkeit großer Sprachmodelle (LLMs) etabliert. Tradi…

arXiv – cs.LG 28.01.2026 05:00

Forschung

KNEXA-FL: Orchestriertes, dezentrales Federated Learning für sichere LLM‑Fusion

Die Feinabstimmung großer Sprachmodelle (LLMs) für spezielle Fachgebiete steht vor einer zentralen Hürde: vielfältige, organisationsübergre…

arXiv – cs.LG 27.01.2026 05:00

Forschung

NOIR schützt Code-Generierung vor Cloud-Überwachung – Open‑Source‑Lösungen

Die Nutzung großer Sprachmodelle (LLMs) zur automatischen Code‑Generierung hat die Produktivität von Entwicklern stark erhöht – doch sie br…

arXiv – cs.AI 26.01.2026 05:00

Praxis

Nous Research stellt NousCoder-14B vor: RL-Trainiertes Olympiad-Modell

Nous Research hat das neue Modell NousCoder-14B vorgestellt, das speziell für olympische Programmierwettbewerbe entwickelt wurde. Durch ein…

MarkTechPost 19.01.2026 05:30

Forschung

SuS: Strategieorientierte Überraschung steigert intrinsische Exploration im RL

In einer neuen Veröffentlichung auf arXiv wird das Konzept „Strategy-aware Surprise“ (SuS) vorgestellt, ein innovatives Framework zur intri…

arXiv – cs.LG 16.01.2026 05:00

Forschung

Neue Multi-Agenten-Architektur ohne Workflows steigert Genauigkeit um 8,5 %

Die neueste Veröffentlichung von CORAL präsentiert ein völlig neues Multi-Agenten-Paradigma, das auf der Orchestrierung von Informationsflü…

arXiv – cs.AI 16.01.2026 05:00

Forschung

DreamPRM-Code: Neues Modell steigert LLM-Codierung mit Schritt-für-Schritt-Ansatz

Process Reward Models (PRMs) haben sich als unverzichtbares Werkzeug zur Optimierung von Large Language Models (LLMs) etabliert, insbesonde…

arXiv – cs.LG 18.12.2025 05:00

Forschung

Agentenlernen mit wachsender multimodaler semantischer Erinnerung

Multimodale Large Language Models (MLLMs) zeigen beeindruckende Rechenfähigkeiten, doch sie lösen Aufgaben oft isoliert und wiederholen dab…

arXiv – cs.AI 27.11.2025 05:00

Forschung

LLM-gestützte Wissensbäume lösen RTL-Assertions schneller

In der heutigen Hardware‑Verifikation ist das Debuggen der Hauptkostenfaktor, wobei Assertion‑Fehler besonders häufig und teuer zu beheben…

arXiv – cs.AI 25.11.2025 05:00

Forschung

KRAL: KI-gestützte Antimicrobial‑Therapie mit verbessertem Wissen und Denken

Die klinische Antimicrobial‑Therapie erfordert die dynamische Integration von Pathogenprofilen, Hostfaktoren, pharmakologischen Eigenschaft…

arXiv – cs.AI 21.11.2025 05:00

Forschung

SkyRL-Agent: Revolutioniert RL-Training für mehrseitige LLM-Agenten

Das neue Framework SkyRL-Agent verspricht einen echten Durchbruch im Reinforcement‑Learning für große Sprachmodelle. Durch effiziente async…

arXiv – cs.AI 21.11.2025 05:00

Forschung

Pass@k: Diagnosewerkzeug für RLVR, kein Optimierungsziel

Die Fähigkeit großer Sprachmodelle, komplexe mehrstufige Argumentationen zu lösen, steht im Mittelpunkt aktueller KI-Forschung. Um diese Ko…

arXiv – cs.LG 21.11.2025 05:00

Forschung

ExPairT-LLM: Präzise Codeauswahl mit Paarabfragen – 27 % bessere Erfolgsrate

In einer neuen Veröffentlichung auf arXiv wird ExPairT-LLM vorgestellt, ein Algorithmus, der die Auswahl des richtigen Programms aus einer…

arXiv – cs.LG 17.11.2025 05:00

Forschung

Murphy: Mehrschrittige Optimierung für selbstkorrigierende Codegenerierung

Ein neues Verfahren namens Murphy erweitert die bereits erfolgreiche Group Relative Policy Optimization (GRPO) um einen mehrschrittigen, re…

arXiv – cs.LG 12.11.2025 05:00

Forschung

SofT-GRPO: Soft-Thinking-LLMs übertreffen klassische Token-basierte RL-Methoden

Ein neuer Ansatz namens SofT-GRPO hat die Forschung im Bereich der großen Sprachmodelle (LLMs) vorangetrieben, indem er das Soft-Thinking-P…

arXiv – cs.AI 11.11.2025 05:00

Forschung

SAGE: Agenten lernen aus eigenen Erfahrungen und verbessern ihre Leistung

Ein brandneues Framework namens SAGE (Self‑Abstraction from Grounded Experience) ermöglicht es Sprachmodell‑Agenten, aus ihren eigenen Ausf…

arXiv – cs.AI 11.11.2025 05:00

Forschung

FormaRL: Autoformalisation ohne gelabelte Daten verbessert

In der formalen Verifikation ist die automatische Formalisierung ein zentrales Ziel, das bislang durch fehlende Daten und ineffiziente Meth…

arXiv – cs.AI 27.08.2025 05:00

Forschung

EvoVerilog: KI-gestützte Evolution verbessert Verilog-Code-Generierung

In der Welt der Hardwareentwicklung haben große Sprachmodelle (LLMs) bereits gezeigt, dass sie Verilog-Code automatisch generieren können…

arXiv – cs.AI 20.08.2025 05:00

Finde Modelle, Firmen und Themen

BeamPERL: RL mit verifizierbaren Belohnungen stärkt physikalisches Denken in kompakteren LLMs

LemmaBench: Live-Benchmark für LLMs in der mathematischen Forschung

Selbstvertrauen in RL führt zu Fehlern – asymmetrische Strafen helfen

EnterpriseGym Corecraft: KI-Agenten lernen in realitätsnahen RL-Umgebungen

ThinkRouter: Effizientes Denken durch Routing zwischen latenter und diskreter Ebene

Meta-Erfahrung in LLMs: Neue Lernmethode steigert Reinforcement Learning

Verbessern Sie LLM‑Logik: Präzise Fehlerstrafe mit Prozess‑überwachtem RL

KNEXA-FL: Orchestriertes, dezentrales Federated Learning für sichere LLM‑Fusion

NOIR schützt Code-Generierung vor Cloud-Überwachung – Open‑Source‑Lösungen

Nous Research stellt NousCoder-14B vor: RL-Trainiertes Olympiad-Modell

SuS: Strategieorientierte Überraschung steigert intrinsische Exploration im RL

Neue Multi-Agenten-Architektur ohne Workflows steigert Genauigkeit um 8,5 %

DreamPRM-Code: Neues Modell steigert LLM-Codierung mit Schritt-für-Schritt-Ansatz

Agentenlernen mit wachsender multimodaler semantischer Erinnerung

LLM-gestützte Wissensbäume lösen RTL-Assertions schneller

KRAL: KI-gestützte Antimicrobial‑Therapie mit verbessertem Wissen und Denken

SkyRL-Agent: Revolutioniert RL-Training für mehrseitige LLM-Agenten

Pass@k: Diagnosewerkzeug für RLVR, kein Optimierungsziel

ExPairT-LLM: Präzise Codeauswahl mit Paarabfragen – 27 % bessere Erfolgsrate

Murphy: Mehrschrittige Optimierung für selbstkorrigierende Codegenerierung

SofT-GRPO: Soft-Thinking-LLMs übertreffen klassische Token-basierte RL-Methoden

SAGE: Agenten lernen aus eigenen Erfahrungen und verbessern ihre Leistung

FormaRL: Autoformalisation ohne gelabelte Daten verbessert

EvoVerilog: KI-gestützte Evolution verbessert Verilog-Code-Generierung

🍪 Cookie-Einstellungen

Neue Multi-Agenten-Architektur ohne Workflows steigert Genauigkeit um 8,5 %

ExPairT-LLM: Präzise Codeauswahl mit Paarabfragen – 27 % bessere Erfolgsrate