Suche nach CUDA | meineki.news

CUDABench: Neuer Benchmark für LLMs bei Text-zu-CUDA-Generierung

In einer wegweisenden Veröffentlichung präsentiert das Forschungsteam CUDABench, einen umfassenden Benchmark, der die Fähigkeit von Large L…

arXiv – cs.LG 04.03.2026 05:00

Produkt

vLLM: Dutzende feinabgestimmte Modelle effizient auf SageMaker AI & Bedrock bereitstellen

Amazon SageMaker AI und Bedrock nutzen vLLM, um gleichzeitig mehrere feinabgestimmte Modelle zu betreiben. In diesem Beitrag wird erklärt…

AWS – Machine Learning Blog 25.02.2026 20:56

Forschung

MPZCH: Zero‑Collision‑Hash verbessert Embedding‑Qualität in Recommender‑Systemen

In großen Empfehlungssystemen sind Embedding‑Tabellen entscheidend, um hochdimensionale kategoriale Merkmale in dichte Vektoren zu übersetz…

arXiv – cs.LG 20.02.2026 05:00

Forschung

Verteilte PINNs: Schnelle Strömungsrekonstruktion durch Domänenzerlegung

Physik-informierte neuronale Netzwerke (PINNs) ermöglichen die Rekonstruktion von Strömungen, indem sie spärliche Geschwindigkeitsmessungen…

arXiv – cs.LG 19.02.2026 05:00

Forschung

<p>OptiML: KI-gestütztes Framework optimiert CUDA-Kernel automatisch</p> <p>Mit dem neuen End‑to‑End-Framework OptiML können Entwickler:innen nun entweder eine natürliche Sprachbeschreibung oder vorhandenen CUDA-Code eingeben und sofort einen leistungsstarken, hardwareoptimierten Kernel erhalten. Das System nutzt ein Mixture‑of‑Thoughts‑Modell, um erste Implementierungsstrategien zu generieren, und verfeinert diese anschließend mithilfe eines Monte‑Carlo‑Tree‑Search‑Optimierers.</p> <p>Jede vorgeschlagene T

arXiv – cs.AI 16.02.2026 05:00

Forschung

SOCKET: Soft Collision Kernel für sparsames Attention – Mehr Durchsatz

Die Skalierung großer Sprachmodelle hängt stark davon ab, wie effizient lange Kontexte verarbeitet werden können. Bei der autoregressiven D…

arXiv – cs.LG 09.02.2026 05:00

Praxis

NVIDIA präsentiert VIBETENSOR: KI-generierte Deep-Learning-Umgebung

NVIDIA hat heute VIBETENSOR vorgestellt, ein Open‑Source-Software‑Stack für Deep Learning, der komplett von KI‑basierten Coding‑Agents unte…

MarkTechPost 05.02.2026 04:10

Praxis

PyTorch: Der Schlüssel zu hochleistungsfähigen Empfehlungssystemen

PyTorch hat sich in der KI‑Community als das bevorzugte Framework etabliert, insbesondere wenn es um Empfehlungssysteme geht. Seine dynamis…

PyTorch – Blog 05.02.2026 18:00

Forschung

SAIR: Multi-Stage ML Autoscaling mit In-Context Reinforcement Learning

SAIR ist ein neu entwickeltes Autoscaling‑Framework, das Multi‑Stage‑ML‑Inference‑Pipelines effizient skaliert. Dabei nutzt es ein großes S…

arXiv – cs.LG 02.02.2026 05:00

Praxis

<h1>Tencent Hunyuan stellt HPC‑Ops vor – Hochleistungs-Operatorbibliothek für LLM</h1> <p>Tencent Hunyuan hat die Open‑Source-Bibliothek HPC‑Ops veröffentlicht, die speziell für die Inferenz von großen Sprachmodellen (LLM) entwickelt wurde. Die Bibliothek bietet eine produktionsreife Sammlung von Operatoren, die direkt auf den Hardware‑Architekturen von LLM‑Inference‑Geräten laufen.</p> <p>HPC‑Ops konzentriert sich auf effiziente CUDA‑Kernels für Kernoperatoren wie Attention, Grouped GEMM und Fused MoE. Dur

MarkTechPost 28.01.2026 06:23

Forschung

VibeTensor: KI-generiertes Deep‑Learning‑Framework mit eigenem CUDA‑Stack

VibeTensor ist ein völlig offenes Forschungs‑Software‑Stack‑Projekt für Deep Learning, das von LLM‑basierten Coding‑Agenten unter menschlic…

arXiv – cs.AI 26.01.2026 05:00

Forschung

Panther: Schnellere, günstigere Deep‑Learning‑Berechnungen mit RandNLA

Die Entwicklung moderner Deep‑Learning‑Modelle wird zunehmend durch die begrenzte GPU‑Speicherkapazität und Rechenleistung eingeschränkt. R…

arXiv – cs.LG 23.01.2026 05:00

Forschung

GPU-gestützte Simulated Annealing mit p-Bits: Gerätvariabilität steigert Leistung

Ein neues, GPU-gestütztes Simulated-Annealing-Framework nutzt probabilistische Bits (p‑Bits) und modelliert dabei realistische Geräteeigens…

arXiv – cs.LG 22.01.2026 05:00

Aktuell

Linux: Das stille Herz hinter ChatGPT und zukünftigen IT‑Jobs

Ohne Linux gäbe es kein ChatGPT – und damit keine moderne KI. Das Betriebssystem bildet die Basis für die gesamte Infrastruktur, die hinter…

ZDNet – Artificial Intelligence 22.01.2026 02:01

Forschung

AIConfigurator: Blitzschnelle LLM-Serving-Optimierung über mehrere Frameworks

Die Optimierung von Large Language Model (LLM)-Inference in Produktionsumgebungen wird immer komplexer. Dynamische Arbeitslasten, strenge L…

arXiv – cs.LG 13.01.2026 05:00

Forschung

MaxCode: KI-Framework steigert Code-Optimierung um bis zu 20 %

MaxCode ist ein neues Reinforcement‑Learning‑Framework, das große Sprachmodelle (LLMs) dazu befähigt, Code automatisch zu optimieren. Durch…

arXiv – cs.LG 12.01.2026 05:00

Forschung

mHC-lite: Mehr Stabilität ohne 20 Sinkhorn‑Knopp Iterationen

DeepSeek hat mit mHC-lite einen wichtigen Schritt in Richtung stabilerer und effizienterer tiefer neuronaler Netze gemacht. Das neue Verfah…

arXiv – cs.LG 12.01.2026 05:00

Forschung

GPU-gestützte INT8‑Quantisierung reduziert KV‑Cache‑Memory um 4× bei LLMs

In großen Sprachmodellen wächst der Key‑Value‑Cache (KV‑Cache) linear mit der Sequenzlänge und kann sogar mehr Speicher beanspruchen als di…

arXiv – cs.LG 09.01.2026 05:00

Forschung

cuPilot: Multi-Agent-Framework beschleunigt CUDA-Kernel-Optimierung um 3,09×

Die Optimierung von CUDA-Kernels bleibt ein komplexes und arbeitsintensives Unterfangen, das tiefgreifendes Wissen über Hardware‑Software‑C…

arXiv – cs.AI 19.12.2025 05:00

Aktuell

Google TPUs revolutionieren die Wirtschaftlichkeit von KI-Training

Seit über zehn Jahren bilden Nvidias GPUs das Rückgrat der meisten Fortschritte im modernen KI‑Bereich. Doch diese Stellung wird nun ernsth…

VentureBeat – AI 10.12.2025 08:00

Praxis

Interview: Von CUDA zu Tile-basiertem – NVIDIA‑Ingenieur Jones zur KI

Mit zunehmender Komplexität von KI-Modellen und gleichzeitigem Hardware‑Wachstum muss die Software‑Schicht, die diese beiden Welten verbind…

MarkTechPost 08.12.2025 16:54

Forschung

Neue Dialog-basierte Datengenerierung steigert Fortran-zu-C++ und C++-zu-CUDA Übersetzungen

Ein neues automatisiertes Pipeline-Konzept nutzt zwei große Sprachmodelle – einen Fragegenerator und einen Lösungsanbieter – um Codeüberset…

arXiv – cs.AI 04.12.2025 05:00

Forschung

CUDA-L2: KI-gestützte Optimierung übertrifft cuBLAS bei Matrixmultiplikation

Ein neues System namens CUDA‑L2 kombiniert große Sprachmodelle mit Reinforcement‑Learning, um Half‑Precision General Matrix Multiply (HGEMM…

arXiv – cs.LG 03.12.2025 05:00

Produkt

Verbesserte Leistung beim Import von Amazon Bedrock Custom Models

Amazon hat die Performance des Bedrock Custom Model Import deutlich gesteigert. Durch neue Optimierungen in der PyTorch‑Kompilierung und CU…

AWS – Machine Learning Blog 26.11.2025 16:46

Forschung

AutoSAGE: CUDA‑Scheduler für Sparse GNN Aggregation optimiert GPU‑Leistung

Die neue Methode AutoSAGE, veröffentlicht auf arXiv, bietet einen Eingabe‑sensiblen CUDA‑Scheduler für Sparse GNN‑Aggregationen wie CSR SpM…

arXiv – cs.LG 25.11.2025 05:00

Praxis

OpenReg: PyTorch‑Simulator für eigene Hardwarebeschleuniger

Die PyTorch‑Community arbeitet intensiv daran, ein wachsendes Ökosystem spezialisierter Beschleuniger aufzubauen. Dabei setzen sie auf eine…

PyTorch – Blog 21.11.2025 17:58

Forschung

PolyKAN: Effiziente GPU-Operatoren für Polynom-KAN-Varianten

Die neue Bibliothek PolyKAN bringt Kolmogorov‑Arnold‑Netze (KANs) endlich in die Praxis. KANs versprechen eine höhere Ausdruckskraft und be…

arXiv – cs.AI 20.11.2025 05:00

Praxis

PyTorch 2.9 veröffentlicht – neue ABI-Updates und symmetrischer Speicher

Wir freuen uns, die Veröffentlichung von PyTorch® 2.9 bekannt zu geben. Diese Version bringt wichtige Verbesserungen, darunter Aktualisieru…

PyTorch – Blog 15.10.2025 19:55

Forschung

SBVR: Neue Quantisierungsmethode für schnelle LLM-Modelle

Mit dem rasanten Aufstieg großer Sprachmodelle stehen Entwickler vor der Herausforderung, diese Modelle effizient auf Hardware zu betreiben…

arXiv – cs.LG 24.09.2025 05:00

Forschung

TinyServe: Schnellere LLM-Serving durch query‑basierte Cache‑Auswahl

Mit TinyServe wird das Ausführen kleiner Sprachmodelle wie TinyLLaMA oder GPT‑2‑345 M deutlich effizienter. Das System kombiniert strukturi…

arXiv – cs.AI 17.09.2025 05:00

Finde Modelle, Firmen und Themen

CUDABench: Neuer Benchmark für LLMs bei Text-zu-CUDA-Generierung

vLLM: Dutzende feinabgestimmte Modelle effizient auf SageMaker AI & Bedrock bereitstellen

MPZCH: Zero‑Collision‑Hash verbessert Embedding‑Qualität in Recommender‑Systemen

Verteilte PINNs: Schnelle Strömungsrekonstruktion durch Domänenzerlegung

SOCKET: Soft Collision Kernel für sparsames Attention – Mehr Durchsatz

NVIDIA präsentiert VIBETENSOR: KI-generierte Deep-Learning-Umgebung

PyTorch: Der Schlüssel zu hochleistungsfähigen Empfehlungssystemen

SAIR: Multi-Stage ML Autoscaling mit In-Context Reinforcement Learning

VibeTensor: KI-generiertes Deep‑Learning‑Framework mit eigenem CUDA‑Stack

Panther: Schnellere, günstigere Deep‑Learning‑Berechnungen mit RandNLA

GPU-gestützte Simulated Annealing mit p-Bits: Gerätvariabilität steigert Leistung

Linux: Das stille Herz hinter ChatGPT und zukünftigen IT‑Jobs

AIConfigurator: Blitzschnelle LLM-Serving-Optimierung über mehrere Frameworks

MaxCode: KI-Framework steigert Code-Optimierung um bis zu 20 %

mHC-lite: Mehr Stabilität ohne 20 Sinkhorn‑Knopp Iterationen

GPU-gestützte INT8‑Quantisierung reduziert KV‑Cache‑Memory um 4× bei LLMs

cuPilot: Multi-Agent-Framework beschleunigt CUDA-Kernel-Optimierung um 3,09×

Google TPUs revolutionieren die Wirtschaftlichkeit von KI-Training

Interview: Von CUDA zu Tile-basiertem – NVIDIA‑Ingenieur Jones zur KI

Neue Dialog-basierte Datengenerierung steigert Fortran-zu-C++ und C++-zu-CUDA Übersetzungen

CUDA-L2: KI-gestützte Optimierung übertrifft cuBLAS bei Matrixmultiplikation

Verbesserte Leistung beim Import von Amazon Bedrock Custom Models

AutoSAGE: CUDA‑Scheduler für Sparse GNN Aggregation optimiert GPU‑Leistung

OpenReg: PyTorch‑Simulator für eigene Hardwarebeschleuniger

PolyKAN: Effiziente GPU-Operatoren für Polynom-KAN-Varianten

PyTorch 2.9 veröffentlicht – neue ABI-Updates und symmetrischer Speicher

SBVR: Neue Quantisierungsmethode für schnelle LLM-Modelle

TinyServe: Schnellere LLM-Serving durch query‑basierte Cache‑Auswahl

🍪 Cookie-Einstellungen

MaxCode: KI-Framework steigert Code-Optimierung um bis zu 20 %