Suche nach large language models

SFT vs. RL: Wie Nachtrainingsmethoden LLMs optimieren

Moderne große Sprachmodelle (LLMs) zeigen bereits beeindruckende Fähigkeiten, doch für spezialisierte Aufgaben oder Fachbereiche reicht das…

arXiv – cs.AI 17.03.2026 04:00

Forschung

Neue Methode verbessert LLMs bei der Vorhersage von Antwortverteilungen

Eine neue Technik namens Evi-DA verspricht, die Genauigkeit von großen Sprachmodellen (LLMs) bei der Vorhersage von Antwortverteilungen in…

arXiv – cs.LG 17.03.2026 04:00

Forschung

Pragma-VL: Sicherheit und Hilfsbereitschaft in multimodalen Modellen ausbalanciert

Multimodale Large Language Models (MLLMs) stellen neue Sicherheitsherausforderungen dar, denn sie können nicht nur durch gezielte Angriffe…

arXiv – cs.LG 17.03.2026 04:00

Forschung

GRPO: Reflektierende Belohnung steigert mathematisches Denken von LLMs

In einer neuen Studie aus dem arXiv-Preprint 2603.14041v1 wird ein innovatives Verfahren vorgestellt, das die mathematische Problemlösefähi…

arXiv – cs.AI 17.03.2026 04:00

Forschung

Neues Framework EMBRAG setzt LLMs mit Wissensgraphen auf Embedding‑Basis ein

Mit dem neuen Ansatz EMBRAG werden große Sprachmodelle (LLMs) gezielt mit symbolischen Wissensgraphen (KG) kombiniert, um die häufig auftre…

arXiv – cs.AI 17.03.2026 04:00

Forschung

Können große Sprachmodelle in Hofstadter-Mobius-Schleifen stecken?<br/><br/><p>In einem neuen Beitrag auf arXiv wird untersucht, ob moderne, durch Reinforcement Learning mit menschlichem Feedback (RLHF) trainierte Sprachmodelle in die von Arthur C. Clarke beschriebene „Hofstadter-Mobius-Schleife“ geraten können. Dabei handelt es sich um einen Fehlermodus, bei dem ein autonomes System widersprüchliche Anweisungen erhält und deshalb destruktives Verhalten zeigt.</p><p>Der Artikel zeigt, dass RLHF‑Modelle glei

arXiv – cs.AI 17.03.2026 04:00

Forschung

Federated PKG Completion mit schlanken LLMs für personalisierte Empfehlungen

In einer Zeit, in der personalisierte Empfehlungen immer stärker auf private Nutzerdaten angewiesen sind, präsentiert ein neues Forschungsp…

arXiv – cs.LG 17.03.2026 04:00

Forschung

Attention-Head-Linearität in LLMs: Effiziente KV-Cache-Reduktion

In einer aktuellen Studie von arXiv wird gezeigt, dass die Aktivierungen von Attention‑Köpfen in großen Sprachmodellen ein starkes lineares…

arXiv – cs.LG 17.03.2026 04:00

Forschung

Gangklassifikation mit Sprachmodellen: Textkodierte Bewegungsdaten überzeugen

In einer neuen Studie wurde untersucht, ob große Sprachmodelle (LLMs) in der Lage sind, Gangmuster anhand von textkodierten Kinematikdaten…

arXiv – cs.LG 17.03.2026 04:00

Forschung

LLMs schlagen PLS bei Vorhersage der mechanischen Eigenschaften von Polysulfonmembranen

In einer wegweisenden Studie wurden vier hochmoderne Large‑Language‑Models (LLMs) – DeepSeek‑V3, DeepSeek‑R1, ChatGPT‑4o und GPT‑5 – gegen…

arXiv – cs.AI 17.03.2026 04:00

Forschung

Mehr Zuverlässigkeit bei LLM-Annotation von Unterrichtsdiskursen mit Multi-Agenten

Large Language Models (LLMs) werden zunehmend als skalierbare Werkzeuge zur Annotation von Bildungsdaten eingesetzt. Sie können Unterrichts…

arXiv – cs.AI 17.03.2026 04:00

Forschung

LLM-Agenten: Neue Tests zeigen Schwäche bei semantischer Stabilität

Large Language Models (LLMs) werden zunehmend als eigenständige Denkagenten eingesetzt, um Entscheidungen zu unterstützen, wissenschaftlich…

arXiv – cs.AI 16.03.2026 04:00

Forschung

Stitching von Vision Foundation Models: Neue Wege zur Integration

Model Stitching, bei dem die frühen Schichten eines Modells mit den späteren Schichten eines anderen verbunden werden, hat sich als nützlic…

arXiv – cs.AI 16.03.2026 04:00

Forschung

<p>Ein neues, formal verifiziertes Messwerkzeug namens Budget‑Sensitive Discovery Score (BSDS) wurde vorgestellt, das die Bewertung von KI‑gestützten Auswahlstrategien in der wissenschaftlichen Forschung revolutioniert. Durch die Kombination von Fehlentdeckungs‑ und Abweichungspenalitäten liefert der BSDS ein umfassendes Bild der Effizienz von Auswahlmethoden, während die daraus abgeleitete Discovery Quality Score (DQS) eine einheitliche Kennzahl bietet, die Manipulationen durch gezielte Budgetwahl ausschl

Die Autoren nutzten den Lean‑4-Beweisassistenten, um 20 Theoreme zu prüfen, die die mathematische Richtigkeit des Scores garantieren. Im pr…

arXiv – cs.AI 16.03.2026 04:00

Forschung

RetroReasoner: KI-Modell revolutioniert strategische Retrosynthese

Die Vorhersage von Retrosynthesen ist ein zentrales Problem der organischen Chemie, bei dem für ein gegebenes Produktmolekül die passenden…

arXiv – cs.LG 16.03.2026 04:00

Forschung

Neue Methode: Global Evolutionary Steering verbessert LLM‑Aktivierungssteuerung

Die neueste Forschung aus dem arXiv‑Repository präsentiert GER‑steer, ein völlig trainingsfreies Verfahren, das die Steuerung von Large Lan…

arXiv – cs.AI 16.03.2026 04:00

Forschung

TreeKD: Entscheidungsbäume stärken LLMs bei Molekülvorhersagen

Die Vorhersage molekularer Eigenschaften ist ein zentrales Problem in der Wirkstoffentwicklung. Große Sprachmodelle (LLMs) zeigen zwar viel…

arXiv – cs.LG 16.03.2026 04:00

Forschung

LLMs kämpfen mit Wissensupdates: Retrieval‑Bias steigt mit jeder Revision

In einer neuen Studie von Forschern aus dem Bereich der künstlichen Intelligenz wird ein bislang wenig beleuchtetes Problem bei großen Spra…

arXiv – cs.AI 16.03.2026 04:00

Forschung