Suche nach Frage‑Antwort‑Benchmark

Metakognitive Feinabstimmung macht KI-Modelle robuster

In der neuesten Studie von Forschern auf arXiv wird gezeigt, dass große Sprachmodelle bei komplexen Rechenaufgaben häufig scheitern – nicht…

arXiv – cs.AI 27.02.2026 05:00

Forschung

HELP: HyperNode-Erweiterung erhöht Genauigkeit und Effizienz von GraphRAG

Moderne Sprachmodelle stoßen häufig an ihre Grenzen, wenn es um das Abrufen von Fakten geht. Sie neigen zu Halluzinationen und können kompl…

arXiv – cs.AI 25.02.2026 05:00

Forschung

LLM‑Präferenzen: Wann bestimmen sie das Verhalten?

Eine neue Studie von Forschern auf arXiv untersucht, ob die inneren Präferenzen von großen Sprachmodellen (LLMs) tatsächlich ihr Verhalten…

arXiv – cs.AI 24.02.2026 05:00

Forschung

CogitoRAG: KI nutzt menschliche Gedächtnismechanismen für präzisere Antworten

Ein neues Retrieval‑Augmented‑Generation‑Framework namens CogitoRAG verspricht, die häufig auftretenden Halluzinationen von großen Sprachmo…

arXiv – cs.AI 19.02.2026 05:00

Forschung

Differential Reasoning Learning schließt Logiklücken klinischer Agenten

Eine neue Methode namens Differential Reasoning Learning (DRL) verspricht, die Zuverlässigkeit von KI‑gestützten klinischen Entscheidungsun…

arXiv – cs.AI 11.02.2026 05:00

Forschung

InfoReasoner: KI nutzt synthetische Belohnung zur besseren Informationssuche

Ein neues Forschungsprojekt namens InfoReasoner zeigt, wie große Sprachmodelle ihre Fähigkeit zur aktiven Informationssuche verbessern könn…

arXiv – cs.AI 03.02.2026 05:00

Forschung

RPC-Bench: Maßgeschneiderte Benchmark für das Verständnis von Forschungspapieren

Die Analyse wissenschaftlicher Arbeiten bleibt für große Sprachmodelle eine Herausforderung, weil sie sich mit spezialisiertem Fachvokabula…

arXiv – cs.AI 22.01.2026 05:00

Forschung

<p>Large Language Models (LLMs) stoßen häufig an die Grenze ihres „Wissens-Cutoffs“, weil ihre festgelegten Parameter keine neuen Informationen direkt aufnehmen können. Traditionell wird dafür Supervised Fine‑Tuning (SFT) eingesetzt, das zwar Fakten aktualisiert, aber selten die Fähigkeit verbessert, diese neuen Daten in Antworten oder Entscheidungen zu nutzen.</p>

Reinforcement Learning (RL) kann hingegen das nötige Denkvermögen vermitteln, ist jedoch wegen des hohen Rechenaufwands kaum für schnelle O…

arXiv – cs.LG 19.01.2026 05:00

Forschung

Multimodale Chain-of-Thought: Analyse zeigt Grenzen der Domänenübergreifenden

Die jüngsten Fortschritte bei multimodalen Chain-of-Thought (CoT)-Modellen haben vor allem in wissenschaftlichen Frage‑Antwort‑Benchmarks w…

arXiv – cs.AI 27.11.2025 05:00

Forschung

KI-gestützte Langkette: Neues Modell löst komplexe biomolekulare Rätsel

Die Analyse von Biomolekülen erfordert oft mehrere logische Schritte, die über Wechselwirkungen, Signalwege und Stoffwechselprozesse hinweg…

arXiv – cs.AI 12.11.2025 05:00

Forschung

DB3-Team gewinnt Meta KDD Cup 2025 mit innovativer Lösung

Das DB3-Team hat mit seiner hochentwickelten Lösung den Meta CRAG‑MM Challenge 2025 beim KDD Cup 2025 triumphiert. Die Ergebnisse sind in d…

arXiv – cs.AI 15.09.2025 05:00

Forschung

<h1>Neues Benchmark ORBIT testet Objekt‑Eigenschafts‑Logik in VLMs</h1> <p>Vision‑Language‑Modelle (VLMs) haben bei vielen visuellen Frage‑Antwort‑Benchmarks große Fortschritte erzielt, doch bleibt unklar, ob sie tatsächlich über die dargestellten Objekte abstrahieren und logisch nachdenken können. Um diese Lücke zu schließen, präsentiert die Forschung das Benchmark ORBIT – ein systematisches Testframework, das speziell auf die Erkennung und Bewertung von Objekt‑Eigenschaften abzielt.</p> <p>ORBIT umfasst 3

arXiv – cs.AI 18.08.2025 05:00

Finde Modelle, Firmen und Themen

Metakognitive Feinabstimmung macht KI-Modelle robuster

HELP: HyperNode-Erweiterung erhöht Genauigkeit und Effizienz von GraphRAG

LLM‑Präferenzen: Wann bestimmen sie das Verhalten?

CogitoRAG: KI nutzt menschliche Gedächtnismechanismen für präzisere Antworten

Differential Reasoning Learning schließt Logiklücken klinischer Agenten

InfoReasoner: KI nutzt synthetische Belohnung zur besseren Informationssuche

RPC-Bench: Maßgeschneiderte Benchmark für das Verständnis von Forschungspapieren

Multimodale Chain-of-Thought: Analyse zeigt Grenzen der Domänenübergreifenden

KI-gestützte Langkette: Neues Modell löst komplexe biomolekulare Rätsel

DB3-Team gewinnt Meta KDD Cup 2025 mit innovativer Lösung

🍪 Cookie-Einstellungen