Suche nach Verifier | meineki.news

Online-Lernbarkeit von Chain-of-Thought-Verifikatoren: Korrektheit vs. Vollständigkeit

Wissenschaftler haben ein neues Online-Lernframework vorgestellt, das Chain-of-Thought-Verifikatoren – Werkzeuge, die die Richtigkeit von S…

arXiv – cs.LG 05.03.2026 05:00

Forschung

Neues Tool übersetzt natürliche Sprache in Prüfungen für neuronale Netze

The passage you provided is already written in German. If you need it translated into another language (e.g., English, French, etc.) or if…

arXiv – cs.LG 04.03.2026 05:00

Forschung

Selbstspiel nur nachhaltig, wenn synthetische Pipeline lernbare Infos liefert

Neue Forschung aus dem arXiv-Preprint arXiv:2603.02218v1 zeigt, dass große Sprachmodelle (LLMs) nur dann wirklich durch selbstständige Lern…

arXiv – cs.LG 04.03.2026 05:00

Forschung

Verifizierer‑gestützte Fluss‑Erweiterung: Mehr Entdeckungen jenseits vorhandener Daten

Flow‑ und Diffusionsmodelle werden üblicherweise mit begrenzten Daten vortrainiert, etwa mit wenigen Molekülproben. Dadurch lernen sie nur…

arXiv – cs.LG 19.02.2026 05:00

Forschung

VI-CuRL: Stabilisierung von verifierunabhängigem RL-Reasoning durch Varianzreduktion

Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) hat sich als führendes Verfahren zur Verbesserung der Argumentationsfähigkeit…

arXiv – cs.LG 16.02.2026 05:00

Forschung

Vision‑Language‑Modelle lösen Tangram‑Puzzles dank selbstreflektierender Testzeit‑Strategie

Menschen meistern Tangram‑Puzzles mühelos, indem sie mentale Rotation, iterative Verfeinerung und visuelles Feedback einsetzen. In einer Re…

arXiv – cs.AI 06.02.2026 05:00

Forschung

CVeDRL: Effizienter Code-Checker mit Difficulty‑Aware Reinforcement Learning

In der Welt der KI‑gestützten Code‑Generierung spielt die Nachverifikation von Code‑Verifikatoren eine entscheidende Rolle. Traditionelle M…

arXiv – cs.AI 02.02.2026 05:00

Forschung

EigenData: Selbstentwickelnde Daten & verifizierendes RL für Tool-Agenten

EigenData ist ein hierarchisches Multi‑Agenten‑System, das interaktive Tool‑Agenten durch selbstentwickelnde Daten und verifizierendes Rein…

arXiv – cs.AI 02.02.2026 05:00

Forschung

Entdeckung verborgener Richtigkeit in LLM‑Kausaler Analyse durch symbolische Verifikation

Moderne Sprachmodelle werden zunehmend für Aufgaben des kausalen Denkens eingesetzt, doch die üblichen Testverfahren prüfen meist nur oberf…

arXiv – cs.AI 30.01.2026 05:00

Forschung

GLOVE: Globale Prüfer für die Ausrichtung von LLMs an ihre Umgebung

In der Welt der großen Sprachmodelle (LLMs) stellt die Zuverlässigkeit von gespeicherten Erinnerungen ein zentrales Problem dar. Viele aktu…

arXiv – cs.AI 28.01.2026 05:00

Forschung

LLM-Planer: Erfolgreich im eigenen Bereich, aber bei neuen Domänen versagen

Ein neues Paper auf arXiv untersucht die Generalisierung von Large Language Models (LLMs) im Bereich der automatischen Planung. Die Autoren…

arXiv – cs.AI 22.01.2026 05:00

Forschung

PCN-Rec: Nachweisbasierte Pipeline für Governance-konforme Empfehlungen

Eine neue Methode namens PCN-Rec kombiniert große Sprachmodelle mit deterministischen Prüfungen, um Empfehlungen zu erzeugen, die gleichzei…

arXiv – cs.AI 16.01.2026 05:00

Forschung

GDEPO: Neue Methode steigert Reinforcement-Learning beim automatischen Theorembeweis

In der Welt des automatischen Theorembeweisens (ATP) hat sich Reinforcement Learning als Schlüsseltechnologie etabliert. Der aktuelle Stand…

arXiv – cs.AI 13.01.2026 05:00

Forschung

Adversariales und kooperatives Denken verbessert Retrieval-gestützte Sprachmodelle

In einer kürzlich veröffentlichten Studie auf arXiv wird ein neues Konzept vorgestellt, das große Sprachmodelle mit Retrieval-gestützter Ge…

arXiv – cs.AI 09.01.2026 05:00

Forschung

INTELLECT-3: 106B-Parameter-Mix-Of-Experts-Modell setzt neue Maßstäbe

Das neueste Forschungsdokument von OpenAI, INTELLECT-3, präsentiert ein 106‑Billionen‑Parameter‑Mixture‑of‑Experts‑Modell, das mit 12 Billi…

arXiv – cs.LG 19.12.2025 05:00

Forschung

BEAVER: Effizienter deterministischer Verifikator für große Sprachmodelle

Mit dem Aufstieg von großen Sprachmodellen (LLMs) aus der Forschung in produktive Systeme wird die Notwendigkeit zuverlässiger Prüfmethoden…

arXiv – cs.AI 08.12.2025 05:00

Forschung

Trinity: Koordinator für LLMs setzt neue Maßstäbe

Die neueste Veröffentlichung von Trinity präsentiert einen schlanken Koordinator, der die Zusammenarbeit mehrerer großer Sprachmodelle (LLM…

arXiv – cs.LG 05.12.2025 05:00

Forschung

Neue geometrische Benchmark‑Methodik ebnet Weg zum AGI

Ein neues arXiv‑Veröffentlichung präsentiert einen revolutionären Ansatz, um die Fortschritte in der künstlichen Intelligenz zu messen. Ans…

arXiv – cs.AI 05.12.2025 05:00

Forschung

Neuer Belohnungsagent Argos verbessert Reinforcement Learning bei KI-Agenten

In einer kürzlich veröffentlichten Studie auf arXiv wird Argos vorgestellt – ein Belohnungsagent, der multimodale Reinforcement‑Learning‑Mo…

arXiv – cs.AI 04.12.2025 05:00

Forschung

SPARK: Schrittweises, Referenzfreies RL mit Prozessbelohnungsmodellen

Das neue Framework SPARK eröffnet einen wegweisenden Ansatz für Reinforcement‑Learning ohne die Notwendigkeit von Schritt‑level‑Annotations…

arXiv – cs.LG 04.12.2025 05:00

Forschung

E-valuator: Verlässliche Agentenprüfer mit sequentieller Hypothesentestung

In der neuesten Veröffentlichung auf arXiv (2512.03109v1) wird ein innovatives Verfahren namens e-valuator vorgestellt, das die Bewertung v…

arXiv – cs.AI 04.12.2025 05:00

Forschung

<p>Die neue 4/δ‑Grenze liefert für LLM‑Verifikationssysteme ein solides theoretisches Fundament: Sie garantiert die Terminierung und Konvergenz jeder Iteration, solange die Fehler‑Reduktionswahrscheinlichkeit δ positiv ist. Der dazu entwickelte LLM‑Verifier‑Konvergenztheorem modelliert die Interaktion zwischen Sprachmodell und Verifikator als diskrete Zeit‑Markov‑Kette und zeigt, dass die erwartete Anzahl an Durchläufen höchstens 4/δ beträgt.</p>

Um die Theorie zu prüfen, wurden über 90.000 Simulationen durchgeführt. Alle Runs erreichten erfolgreich den Verified‑Zustand, und die geme…

arXiv – cs.AI 03.12.2025 05:00

Forschung

Schnellere, verifizierte Erklärungen für neuronale Netze

Verifizierte Erklärungen sind ein theoretisch fundierter Ansatz, um die Entscheidungen von neuronalen Netzwerken zu erklären. Sie stoßen je…

arXiv – cs.LG 02.12.2025 05:00

Forschung

MarsRL: Mehr-Agenten-Logik mit Reinforcement Learning steigert LLM-Performance

Die jüngsten Durchbrüche bei großen Sprachmodellen (LLMs) wurden maßgeblich durch Reinforcement Learning mit verifizierbaren Belohnungen (R…

arXiv – cs.AI 17.11.2025 05:00

Forschung

Neural-Netzwerke: Probabilistischer Ansatz liefert kompakte Vorwärtsgrenzen

Neuer Artikel auf arXiv (2511.11656v1) präsentiert einen innovativen probabilistischen Ansatz zur Berechnung kompakter Vorwärtsgrenzen für…

arXiv – cs.LG 18.11.2025 05:00

Forschung

Mehragenten-System verbessert rechtliche Prüfung bei Datenübertragungen

Ein brandneues Multi‑Agenten‑System zur rechtlichen Prüfung von Datenübertragungen hat in einer ersten Evaluation beeindruckende Ergebnisse…

arXiv – cs.AI 17.11.2025 05:00

Forschung

LLM‑Annotation verbessert Lernanalyse: Selbst‑ und Peer‑Verification steigert Zuverlässigkeit um 58 %

In einer neuen Studie aus dem arXiv‑Repository wird gezeigt, wie große Sprachmodelle (LLMs) die Qualität ihrer eigenen Annotationen von Ler…

arXiv – cs.AI 14.11.2025 05:00

Forschung

OS‑Sentinel: Sicherheit für mobile KI‑Agenten durch hybride Validierung

Computer‑gestützte Agenten, die auf Vision‑Language‑Modellen (VLMs) basieren, zeigen inzwischen menschenähnliche Fähigkeiten bei der Bedien…

arXiv – cs.AI 29.10.2025 04:00

Forschung

Vier zentrale Ansätze zur Bewertung von LLMs – von Grund auf erklärt

In der Welt der großen Sprachmodelle (LLMs) gibt es vier bewährte Methoden, um die Leistungsfähigkeit von Modellen systematisch zu prüfen…

Sebastian Raschka – Ahead of AI 05.10.2025 12:12

Forschung

<h1>Neuer Explanatory Verifier steigert Genauigkeit von KI-Logiktests</h1> <p>Wissenschaftler haben einen innovativen „Explanatory Verifier“ entwickelt, der die Leistungsfähigkeit von KI‑Modellen beim Lösen komplexer Aufgaben deutlich erhöht. Durch den Einsatz von Reinforcement‑Learning (GRPO) erzeugt der Verifier nicht nur präzise Vertrauenswerte, sondern liefert auch verständliche natürliche Spracherklärungen zu den vorgeschlagenen Lösungen.</p> <p>Traditionelle Test‑zeit‑Strategien wie „best‑of‑n“ oder S

arXiv – cs.AI 26.09.2025 05:00

Finde Modelle, Firmen und Themen

Online-Lernbarkeit von Chain-of-Thought-Verifikatoren: Korrektheit vs. Vollständigkeit

Neues Tool übersetzt natürliche Sprache in Prüfungen für neuronale Netze

Selbstspiel nur nachhaltig, wenn synthetische Pipeline lernbare Infos liefert

Verifizierer‑gestützte Fluss‑Erweiterung: Mehr Entdeckungen jenseits vorhandener Daten

VI-CuRL: Stabilisierung von verifierunabhängigem RL-Reasoning durch Varianzreduktion

Vision‑Language‑Modelle lösen Tangram‑Puzzles dank selbstreflektierender Testzeit‑Strategie

CVeDRL: Effizienter Code-Checker mit Difficulty‑Aware Reinforcement Learning

EigenData: Selbstentwickelnde Daten & verifizierendes RL für Tool-Agenten

Entdeckung verborgener Richtigkeit in LLM‑Kausaler Analyse durch symbolische Verifikation

GLOVE: Globale Prüfer für die Ausrichtung von LLMs an ihre Umgebung

LLM-Planer: Erfolgreich im eigenen Bereich, aber bei neuen Domänen versagen

PCN-Rec: Nachweisbasierte Pipeline für Governance-konforme Empfehlungen

GDEPO: Neue Methode steigert Reinforcement-Learning beim automatischen Theorembeweis

Adversariales und kooperatives Denken verbessert Retrieval-gestützte Sprachmodelle

INTELLECT-3: 106B-Parameter-Mix-Of-Experts-Modell setzt neue Maßstäbe

BEAVER: Effizienter deterministischer Verifikator für große Sprachmodelle

Trinity: Koordinator für LLMs setzt neue Maßstäbe

Neue geometrische Benchmark‑Methodik ebnet Weg zum AGI

Neuer Belohnungsagent Argos verbessert Reinforcement Learning bei KI-Agenten

SPARK: Schrittweises, Referenzfreies RL mit Prozessbelohnungsmodellen

E-valuator: Verlässliche Agentenprüfer mit sequentieller Hypothesentestung

Schnellere, verifizierte Erklärungen für neuronale Netze

MarsRL: Mehr-Agenten-Logik mit Reinforcement Learning steigert LLM-Performance

Neural-Netzwerke: Probabilistischer Ansatz liefert kompakte Vorwärtsgrenzen

Mehragenten-System verbessert rechtliche Prüfung bei Datenübertragungen

LLM‑Annotation verbessert Lernanalyse: Selbst‑ und Peer‑Verification steigert Zuverlässigkeit um 58 %

OS‑Sentinel: Sicherheit für mobile KI‑Agenten durch hybride Validierung

Vier zentrale Ansätze zur Bewertung von LLMs – von Grund auf erklärt

🍪 Cookie-Einstellungen

LLM‑Annotation verbessert Lernanalyse: Selbst‑ und Peer‑Verification steigert Zuverlässigkeit um 58 %