Suche nach Rechenmodelle

Mathematische Modelle: Erfolgreich, aber instabil – Das Tiefe‑Genauigkeit-Paradox

Mathematische Rechenmodelle werden heute in Bildung, automatisierten Tutorien und Entscheidungsunterstützungssystemen eingesetzt, obwohl si…

arXiv – cs.LG 05.03.2026 05:00

Forschung

<p>Metakognitive Entropie-Kalibrierung verbessert verifizierbares RL-Reasoning</p> <p>In den letzten Jahren haben große Rechenmodelle für komplexe Aufgaben, wie Mathematik und Frage‑Antwort‑Systeme, enorme Fortschritte erzielt. Diese Modelle werden meist mit Reinforcement Learning und verifizierbaren Belohnungen (RLVR) trainiert. Dabei wird jedoch fast ausschließlich ein binäres Korrektheitssignal verwendet, während die inhärente Unsicherheit des Modells weitgehend ignoriert wird. Dieses „Uncertainty‑Reward

arXiv – cs.AI 27.02.2026 05:00

Forschung

SemSIEdit: LLMs korrigieren sensible Infos – Lecks um 34,6 % reduziert

Eine neue Studie aus dem arXiv-Repository zeigt, dass große Sprachmodelle ihre eigenen sensiblen Ausgaben selbstständig korrigieren können…

arXiv – cs.AI 26.02.2026 05:00

Forschung

Neue Pipeline zur Verifikation von LLM‑generierten Mathe‑Lösungen

Mit der zunehmenden Beliebtheit großer Rechenmodelle, die komplexe mathematische Aufgaben lösen, wird die Messung ihrer Fähigkeiten immer w…

arXiv – cs.AI 25.02.2026 05:00

Forschung

Effizientes Training großer Rechenmodelle durch Progressive Thought Encoding

Große Rechenmodelle für komplexe Aufgaben sind äußerst leistungsfähig, doch ihr Training mit Reinforcement Learning (RL) bleibt ein Engpass…

arXiv – cs.LG 20.02.2026 05:00

Forschung

RFEval: Benchmark zur Messung der Glaubwürdigkeit von KI-Argumenten

Neues Forschungswerkzeug namens RFEval prüft, ob die Argumente großer KI-Modelle wirklich ihre Entscheidungen erklären oder nur überzeugend…

arXiv – cs.AI 20.02.2026 05:00

Forschung

Achtung: Entscheidungsunterschiede zwischen Rechen- und Gesprächs-LLMs!

Die rasante Verbreitung von großen Sprachmodellen (LLMs) als Entscheidungsunterstützungssysteme und in agentischen Workflows verändert die…

arXiv – cs.AI 18.02.2026 05:00

Forschung

DRTC: Erkennung kritischer Entscheidungsstellen in Sprachmodell-Logik

Die Frage, wie Sprachmodelle lange, komplexe Argumentationsketten aufbauen, bleibt ein zentrales Forschungsproblem. Bisherige Erklärungsans…

arXiv – cs.LG 18.02.2026 05:00

Forschung

On-Policy SFT: Effiziente, präzise KI-Logik ohne komplexes RL

In der Forschung zu großen Rechenmodellen für logisches Denken wird häufig Reinforcement Learning (RL) eingesetzt, um lange „Chain-of-Thoug…

arXiv – cs.AI 17.02.2026 05:00

Forschung

<h1>Große Rechenmodelle zeigen bei Mehrfachangriffen Schwächen</h1> <p>Neuste Forschungsergebnisse zeigen, dass große Rechenmodelle, die komplexe Schlussfolgerungen ziehen können, zwar Spitzenleistungen bei anspruchsvollen Aufgaben erbringen, aber unter mehrstufiger, gezielter Angriffsbelastung nicht automatisch robust bleiben. In einer umfassenden Studie wurden neun der fortschrittlichsten Rechenmodelle auf ihre Widerstandsfähigkeit gegen gezielte Angriffe getestet.</p> <p>Die Ergebnisse sind eindeutig: Mo

arXiv – cs.AI 16.02.2026 05:00

Forschung

Große Sprachmodelle zeigen Schwächen bei Theory of Mind-Aufgaben Eine aktuelle Untersuchung aus dem arXiv‑Repository analysiert, ob die jüngsten Fortschritte bei Großen Rechenmodellen (LRMs) – die für Schritt‑für‑Schritt‑Rechnungen in Mathematik und Programmierung glänzen – auch auf sozialkognitive Fähigkeiten übertragen werden können. Dabei wurden neun hochentwickelte Große Sprachmodelle (LLMs) systematisch auf drei repräsentativen Theory of Mind (ToM)-Benchmarks getestet, wobei Modelle mit expliziter Re

arXiv – cs.AI 12.02.2026 05:00

Forschung

Erklärbare Kompression von Gedankenketten steigert Effizienz multimodaler Modelle

In multimodalen Rechenmodellen werden lange Gedankenketten (Long CoTs) eingesetzt, um komplexe Aufgaben zu lösen und dabei detaillierte vis…

arXiv – cs.AI 11.02.2026 05:00

Forschung

ESTAR: Frühzeitiges Stoppen von Token-bewusstem Denken steigert Effizienz

Ein neues Verfahren namens ESTAR (Early‑Stopping for Token‑Aware Reasoning) ermöglicht es großen Rechenmodellen, lange Gedankenketten effiz…

arXiv – cs.AI 11.02.2026 05:00

Forschung

EVE: Strukturierter Ansatz für vollständige, treue Antworten aus einem Dokument

Moderne große Sprachmodelle (LLMs) erzeugen Texte, indem sie die Wahrscheinlichkeit des nächsten Tokens vorhersagen. Diese Vorgehensweise f…

arXiv – cs.LG 09.02.2026 05:00

Forschung

GrAlgoBench enthüllt Schwächen großer Rechenmodelle bei Graphenalgorithmen

Ein neues Benchmark-Set namens GrAlgoBench, veröffentlicht auf arXiv (2602.06319v1), richtet sich gezielt an große Rechenmodelle (LRMs) und…

arXiv – cs.AI 09.02.2026 05:00

Forschung

RLVR: Monitorierbarkeit als Gratis‑Geschenk für LRM‑Argumentationen

Mit der zunehmenden Verbreitung großer Rechenmodelle wird die Überprüfung ihrer Gedankenketten (Chain‑of‑Thought, CoT) immer wichtiger. Ein…

arXiv – cs.AI 05.02.2026 05:00

Forschung

Manifold-Reshaping Policy Optimization lässt LLMs über ihre Grenzen hinaus denken

Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) hat gezeigt, dass große Sprachmodelle (LLMs) ihre Fähigkeit zum logischen Den…

arXiv – cs.LG 04.02.2026 05:00

Forschung

HyPAC: Kostenoptimierte Hybrid-Annotation mit PAC-Fehlergarantie

In der heutigen Datenannotation stehen oft mehrere Quellen zur Verfügung, die unterschiedliche Kosten-Qualitäts-Verhältnisse aufweisen. Daz…

arXiv – cs.LG 04.02.2026 05:00

Forschung

Self-Guard: Sicherheit für große Rechenmodelle durch verbesserte Selbstreflexion

Die neu auftretenden Large Reasoning Models (LRMs) eröffnen ein völlig neues Feld des expliziten Denkens und ermöglichen damit beeindrucken…

arXiv – cs.AI 03.02.2026 05:00

Forschung

ThinkSafe: Selbstgenerierte Sicherheitsausrichtung für große Rechenmodelle

In einer neuen Veröffentlichung auf arXiv (2601.23143v1) stellen die Autoren das Projekt ThinkSafe vor, das die Sicherheit großer Rechenmod…

arXiv – cs.AI 02.02.2026 05:00

Forschung

Effizientes, jederzeit sicheres PAC-Reasoning

Ein neues Verfahren namens B‑PAC Reasoning verspricht, große Rechenmodelle für komplexe Aufgaben effizienter zu nutzen, ohne die Genauigkei…

arXiv – cs.AI 02.02.2026 05:00

Forschung

G-PAC und C-PAC: Neue Garantie für effiziente, bedingte Logikmodelle

In der Welt der großen Rechenmodelle, die komplexe Schlussfolgerungen durch ausgedehnte „Chain‑of‑Thought“-Routinen liefern, bleibt die Rec…

arXiv – cs.AI 02.02.2026 05:00

Forschung

CoScale‑RL: Effizientes Post‑Training Skalieren von Daten und Rechenleistung

Ein neues Verfahren namens CoScale‑RL verspricht, die Nachschulung großer Rechenmodelle deutlich effizienter zu gestalten. Durch eine innov…

arXiv – cs.LG 22.01.2026 05:00

Forschung

Neues Verfahren schützt sensible Daten in großen Rechenmodellen

Die Forschung im Bereich der großen Rechenmodelle (LRMs) hat einen bedeutenden Fortschritt erzielt: Mit dem neuen Ansatz „Sensitive Traject…

arXiv – cs.AI 15.01.2026 05:00

Forschung

Kreisförmiges Denken: Modelle geraten in selbstverstärkende Schleifen

In einer neuen Studie von Forschern auf arXiv wird ein bislang wenig beachtetes Problem großer Rechenmodelle aufgedeckt: die sogenannte „Ci…

arXiv – cs.AI 12.01.2026 05:00

Forschung

Rechenmodelle bestehen CFA-Prüfungen mit Brillanz

Frühere Studien zeigten, dass große Sprachmodelle (LLMs) bei den Chartered Financial Analyst (CFA)-Prüfungen schwächeln. Doch neue Rechenmo…

arXiv – cs.AI 10.12.2025 05:00

Forschung

SkipKV: Effiziente KV-Kompression für große Rechenmodelle

Große Rechenmodelle für logisches Denken verbrauchen bei der Inferenz enorme Mengen an Key‑Value‑Cache, weil die ausführliche „Chain‑of‑Tho…

arXiv – cs.AI 10.12.2025 05:00

Forschung

Neue Taxonomie enthüllt die „Psychologie“ großer Rechenmodelle

Wissenschaftler haben eine neue Klassifikation entwickelt, die die inneren Abläufe großer Rechenmodelle (LRMs) aus menschlicher Sicht beleu…

arXiv – cs.AI 02.12.2025 05:00

Forschung

ORION: Sprachmodelle lernen kompakte, effiziente Logik in Mentalese

Die neueste Forschung von ORION zeigt, wie große Sprachmodelle ihre Rechenleistung drastisch steigern können, indem sie lernen, in einer ko…

arXiv – cs.AI 01.12.2025 05:00

Forschung

SafeRBench: Neuer Benchmark für Sicherheit von großen Rechenmodellen

Große Rechenmodelle (LRMs) nutzen explizite Gedankenketten, um Antworten zu verbessern. Diese Fähigkeit birgt jedoch neue Gefahren: schädli…

arXiv – cs.AI 20.11.2025 05:00

Finde Modelle, Firmen und Themen

Mathematische Modelle: Erfolgreich, aber instabil – Das Tiefe‑Genauigkeit-Paradox

SemSIEdit: LLMs korrigieren sensible Infos – Lecks um 34,6 % reduziert

Neue Pipeline zur Verifikation von LLM‑generierten Mathe‑Lösungen

Effizientes Training großer Rechenmodelle durch Progressive Thought Encoding

RFEval: Benchmark zur Messung der Glaubwürdigkeit von KI-Argumenten

Achtung: Entscheidungsunterschiede zwischen Rechen- und Gesprächs-LLMs!

DRTC: Erkennung kritischer Entscheidungsstellen in Sprachmodell-Logik

On-Policy SFT: Effiziente, präzise KI-Logik ohne komplexes RL

Erklärbare Kompression von Gedankenketten steigert Effizienz multimodaler Modelle

ESTAR: Frühzeitiges Stoppen von Token-bewusstem Denken steigert Effizienz

EVE: Strukturierter Ansatz für vollständige, treue Antworten aus einem Dokument

GrAlgoBench enthüllt Schwächen großer Rechenmodelle bei Graphenalgorithmen

RLVR: Monitorierbarkeit als Gratis‑Geschenk für LRM‑Argumentationen

Manifold-Reshaping Policy Optimization lässt LLMs über ihre Grenzen hinaus denken

HyPAC: Kostenoptimierte Hybrid-Annotation mit PAC-Fehlergarantie

Self-Guard: Sicherheit für große Rechenmodelle durch verbesserte Selbstreflexion

ThinkSafe: Selbstgenerierte Sicherheitsausrichtung für große Rechenmodelle

Effizientes, jederzeit sicheres PAC-Reasoning

G-PAC und C-PAC: Neue Garantie für effiziente, bedingte Logikmodelle

CoScale‑RL: Effizientes Post‑Training Skalieren von Daten und Rechenleistung

Neues Verfahren schützt sensible Daten in großen Rechenmodellen

Kreisförmiges Denken: Modelle geraten in selbstverstärkende Schleifen

Rechenmodelle bestehen CFA-Prüfungen mit Brillanz

SkipKV: Effiziente KV-Kompression für große Rechenmodelle

Neue Taxonomie enthüllt die „Psychologie“ großer Rechenmodelle

ORION: Sprachmodelle lernen kompakte, effiziente Logik in Mentalese

SafeRBench: Neuer Benchmark für Sicherheit von großen Rechenmodellen

🍪 Cookie-Einstellungen

SemSIEdit: LLMs korrigieren sensible Infos – Lecks um 34,6 % reduziert