VibeTensor: KI-generiertes Deep‑Learning‑Framework mit eigenem CUDA‑Stack

arXiv – cs.AI Original ≈2 Min. Lesezeit
Anzeige

VibeTensor ist ein völlig offenes Forschungs‑Software‑Stack‑Projekt für Deep Learning, das von LLM‑basierten Coding‑Agenten unter menschlicher Anleitung erstellt wurde. Der Begriff „vollständig generiert“ bedeutet, dass sämtliche Code‑Änderungen von den Agenten vorgeschlagen und angewendet wurden, ohne dass jede Änderung manuell geprüft wurde. Stattdessen stützt sich die Validierung auf automatisierte Builds, Tests und differenzielle Prüfungen.

Der Kern von VibeTensor ist eine PyTorch‑ähnliche, eager Tensor‑Bibliothek, die in C++20 implementiert ist und sowohl CPU‑ als auch CUDA‑Unterstützung bietet. Über nanobind wird eine Python‑Schnittstelle bereitgestellt, während ein experimentelles Node.js/TypeScript‑Interface die Nutzung in Web‑Umgebungen ermöglicht. Im Gegensatz zu dünnen Bindings verfügt VibeTensor über ein eigenes Tensor‑ und Speicher‑System, einen schlanken Dispatcher, Reverse‑Mode Autograd, einen CUDA‑Runtime‑Layer mit Streams, Events und Graphen sowie einen stream‑geordneten Caching‑Allocator mit Diagnosefunktionen.

Ein weiteres Highlight ist die stabile C‑ABI, die das dynamische Laden von Operator‑Plugins erlaubt. Durch diese Architektur demonstriert VibeTensor, dass KI‑gestützte Softwareentwicklung in der Lage ist, einen zusammenhängenden Deep‑Learning‑Runtime von der Programmierschnittstelle bis zur CUDA‑Speicherverwaltung zu erzeugen, wobei die Zuverlässigkeit primär durch Builds und Tests gewährleistet wird.

Die Veröffentlichung beschreibt die Systemarchitektur, den Entwicklungs‑ und Validierungsworkflow und bewertet die Ergebnisse anhand von Repository‑Größe, Test‑Suite‑Zusammensetzung und reproduzierbaren Mikro‑Benchmarks. Diese Benchmarks vergleichen KI‑generierte Kernels wie fused attention mit etablierten PyTorch‑SDPA/FlashAttention‑Implementierungen. Zusätzlich wurden End‑zu‑End‑Trainings‑Sanity‑Checks an drei kleinen Workloads – Sequenzumkehr, ViT und miniGPT – auf einer NVIDIA H100 (Hopper, SM90) durchgeführt.

Ähnliche Artikel