Suche

Finde Modelle, Firmen und Themen

Suche im News-Archiv nach Themen, die du dauerhaft verfolgen willst.

Ergebnisse für “Frage‑Antwort‑Benchmark”
Forschung

<p>Large Language Models (LLMs) stoßen häufig an die Grenze ihres „Wissens-Cutoffs“, weil ihre festgelegten Parameter keine neuen Informationen direkt aufnehmen können. Traditionell wird dafür Supervised Fine‑Tuning (SFT) eingesetzt, das zwar Fakten aktualisiert, aber selten die Fähigkeit verbessert, diese neuen Daten in Antworten oder Entscheidungen zu nutzen.</p>

Reinforcement Learning (RL) kann hingegen das nötige Denkvermögen vermitteln, ist jedoch wegen des hohen Rechenaufwands kaum für schnelle O…
arXiv – cs.LG
Forschung

<h1>Neues Benchmark ORBIT testet Objekt‑Eigenschafts‑Logik in VLMs</h1> <p>Vision‑Language‑Modelle (VLMs) haben bei vielen visuellen Frage‑Antwort‑Benchmarks große Fortschritte erzielt, doch bleibt unklar, ob sie tatsächlich über die dargestellten Objekte abstrahieren und logisch nachdenken können. Um diese Lücke zu schließen, präsentiert die Forschung das Benchmark ORBIT – ein systematisches Testframework, das speziell auf die Erkennung und Bewertung von Objekt‑Eigenschaften abzielt.</p> <p>ORBIT umfasst 3

arXiv – cs.AI