Suche nach Benchmark-Tests

RxnNano: Kompakte LLMs für chemische Reaktionsvorhersage mit Curriculum

Die Vorhersage chemischer Reaktionen ist ein entscheidender Schritt, um die Entwicklung neuer Medikamente und die Planung von Synthesen zu…

arXiv – cs.LG 04.03.2026 05:00

Forschung

Reward-Modelle ohne menschliche Hilfe: Skalierung durch unüberwachtes Lernen

Forscher haben einen neuen Ansatz vorgestellt, mit dem Belohnungsmodelle ohne menschliche Annotationen skaliert werden können. Durch das Tr…

arXiv – cs.LG 04.03.2026 05:00

Forschung

Ein neues Verfahren namens Recursive Concept Evolution (RCE) verspricht, die Leistungsfähigkeit großer Sprachmodelle bei komplexen Rechenaufgaben deutlich zu erhöhen. Obwohl moderne LLMs bei vielen Aufgaben brillieren, verlieren sie bei Benchmark-Tests, die tiefes Zusammenspiel von Konzepten erfordern, an Genauigkeit. Dazu zählen ARC‑AGI‑2, GPQA, MATH, BBH und HLE. RCE erlaubt es dem Modell, während der Inferenz seine internen Repräsentationen dynamisch zu verändern, indem es neue, niedrigd

arXiv – cs.AI 18.02.2026 05:00

Forschung

Laplacian-LoRA: Oversmoothing in tiefen GCNs durch spektrale Low‑Rank‑Anpassung

In tiefen Graph Convolutional Networks (GCNs) führt das Phänomen des Oversmoothings dazu, dass Knotenrepräsentationen mit zunehmender Tiefe…

arXiv – cs.LG 10.02.2026 05:00

Forschung

Neue Methode steigert LLMs beim mathematischen Problemlösen

Die Fähigkeit von Sprachmodellen, mathematische Aufgaben zu lösen, gilt als entscheidender Test für ihre Denkfähigkeit und ist für Anwendun…

arXiv – cs.AI 05.02.2026 05:00

Praxis

Llama 3.1-8B verbessert Denken durch Feinabstimmung auf NVIDIA DGX Spark

Die Freude an lokalen Sprachmodellen liegt nicht nur im einfachen Herunterladen der Gewichte, sondern auch im Experimentieren, das oft bis…

PyTorch – Blog 02.02.2026 18:16

Forschung

TwinWeaver: KI-gestütztes Modell für digitale Zwillinge in der Krebsmedizin

Die Präzisionsonkologie steht vor der Herausforderung, klinische Ereignisse und deren Verlauf vorherzusagen, wenn die zugrunde liegenden Da…

arXiv – cs.LG 30.01.2026 05:00

Forschung

Neues Benchmark-Set für privatsphärische Bildklassifikation vorgestellt

In einer aktuellen Veröffentlichung auf arXiv wird ein neues Benchmark-Set für die Bildklassifikation unter Differential Privacy vorgestell…

arXiv – cs.LG 27.01.2026 05:00

Forschung

KOM: KI-System zur präzisen Kniearthrose-Behandlung

Mehr als 600 Millionen Menschen weltweit leiden an Kniearthrose (KOA), einer Erkrankung, die starke Schmerzen, Funktionsstörungen und Behin…

arXiv – cs.AI 26.11.2025 05:00

Aktuell

EAGLET verbessert KI-Agenten bei langwierigen Aufgaben durch maßgeschneiderte Pläne

Im Jahr 2025 versprach Nvidia-Chef Jensen Huang, dass KI-Agenten die Zukunft bestimmen würden. Tatsächlich haben führende Anbieter wie Open…

VentureBeat – AI 14.10.2025 23:27

Finde Modelle, Firmen und Themen

RxnNano: Kompakte LLMs für chemische Reaktionsvorhersage mit Curriculum

Reward-Modelle ohne menschliche Hilfe: Skalierung durch unüberwachtes Lernen

Laplacian-LoRA: Oversmoothing in tiefen GCNs durch spektrale Low‑Rank‑Anpassung

Neue Methode steigert LLMs beim mathematischen Problemlösen

Llama 3.1-8B verbessert Denken durch Feinabstimmung auf NVIDIA DGX Spark

TwinWeaver: KI-gestütztes Modell für digitale Zwillinge in der Krebsmedizin

Neues Benchmark-Set für privatsphärische Bildklassifikation vorgestellt

KOM: KI-System zur präzisen Kniearthrose-Behandlung

EAGLET verbessert KI-Agenten bei langwierigen Aufgaben durch maßgeschneiderte Pläne

🍪 Cookie-Einstellungen