Zero Padding in CNNs: Kosten und Nutzen im Überblick Zero Padding ist eine Technik, bei der zusätzliche Pixel mit dem Wert Null um die Ränder eines Bildes gelegt werden. Dadurch können die Faltungskerne über die Randpixel gleiten und die Verringerung der räumlichen Dimensionen des Feature‑Maps nach der Faltung wird kontrolliert. MarkTechPost 02.02.2026 18:29
Quantisierung von Modellen: Größe um 4‑fach reduzieren mit PyTorch Ein Entwickler hat gerade das neueste 4‑Billionen‑Parameter‑Modell heruntergeladen und in Google Colab gestartet. Nach kurzer Zeit kam es zum Absturz, ein häufiges Symptom, wenn die erforderliche VRAM‑Kapazität nicht berücksichtigt wird. Analytics Vidhya 26.01.2026 09:07
Mit einem einfachen Skript AI aus Chrome, Edge und Firefox entfernen Die neuesten Versionen von Chrome, Edge und Firefox sind mit immer mehr Funktionen überladen – darunter auch KI-Tools, die viele Nutzer nicht benötigen. Diese zusätzlichen Features erhöhen nicht nur den Speicherbedarf, sondern können auch die Performance beeinträchtigen. ZDNet – Artificial Intelligence 22.01.2026 04:00
Flux.2 Klein: Kompaktes, schnelles KI‑Bildmodell im Test Jeden Monat werden KI‑Bildmodelle besser: die Ausgaben schärfer, die Parameterzahl steigt und die Benchmark‑Ergebnisse verbessern sich stetig. Analytics Vidhya 21.01.2026 06:03
Student-Model übertrifft Lehrer: Neue Distillationsmethode für LLMs The current state of the art in the field of computer vision is that the best performing models are based on deep neural networks. These models are trained on large datasets and are able to learn complex features from the data. However, they are also very computationally expensive and require a lot of memory to store the model parameters. This makes them difficult to deploy on resource-constrained devices such as mobile phones or embedded systems. In addition, the models are often overfitted to the training data and do not generalize well to new data. This is a major limitation of the current state of the art. arXiv – cs.AI 16.01.2026 05:00
LLMs ermöglichen unbegrenzten Kontext bei 114‑fach geringem Speicherbedarf Forscher haben einen Durchbruch erzielt: Große Sprachmodelle können nun einen unbegrenzten Kontext verarbeiten, während der Speicherbedarf um das 114‑fache reduziert wird. Dieser Fortschritt zeigt, dass die Grenzen von Speicher und Kontext in KI-Systemen deutlich verschoben werden können. Die Ergebnisse wurden erstmals auf der Plattform Towards Data Science veröffentlicht und markieren einen wichtigen Schritt in Richtung effizienterer und skalierbarer KI‑Anwendungen. Towards Data Science 09.01.2026 16:30
Samsung erwartet im 4. Quartal dreifach höhere Gewinne trotz steigender Speicherpreise Die Preise für Speicherchips sollen im ersten Quartal um weitere 60 % steigen, während die Branche noch lange mit hohen Kosten zu kämpfen hat. The Register – Headlines 08.01.2026 23:56
Mosaic Pruning: Neues Verfahren für vielseitiges Pruning von Mixture-of-Experts Die Sparse Mixture-of-Experts (SMoE) Architektur hat die Skalierung großer Sprachmodelle revolutioniert, indem sie nur einen Bruchteil der Parameter während der Inferenz aktiviert. Trotz dieser Effizienz bleibt die praktische Nutzung stark durch den statischen Speicherbedarf eingeschränkt, denn sämtliche Experten müssen gleichzeitig im Arbeitsspeicher gehalten werden. arXiv – cs.LG 26.11.2025 05:00
Neues Verfahren: OTMF fusioniert Aufgabenmodelle ohne Wissenverlust In der Forschung zur künstlichen Intelligenz gewinnt die Kombination mehrerer, für unterschiedliche Aufgaben feintuned Modelle zu einem einzigen, vielseitigen System zunehmend an Bedeutung. Traditionelle Methoden, die Parameter direkt im Gewichtespace interpolieren, führen jedoch zu erheblichen Verschiebungen der Featureverteilung und gefährden die spezifische Aufgabenkenntnis. arXiv – cs.LG 26.11.2025 05:00
DartQuant: Schnelle Rotationskalibrierung für die Quantisierung von Sprachmodellen Quantisierung ist ein entscheidender Schritt, um die Inferenz großer Sprachmodelle zu beschleunigen. Rotationsmatrizen haben sich dabei als besonders wirksam erwiesen, da sie Ausreißer glätten und die Quantisierungsleistung verbessern. Das Problem: ein end‑to‑end‑Feintuning der Rotationsoptimierung ist rechenintensiv und neigt leicht zum Overfitting. arXiv – cs.LG 07.11.2025 05:00
KVCompose: Effiziente KV-Cache-Kompression mit Composite Tokens Neues Verfahren namens KVCompose reduziert den Speicherbedarf von Key‑Value‑Caches in großen Sprachmodellen drastisch, ohne die Genauigkeit zu beeinträchtigen. Durch die Kombination von aufmerksamkeitsbasierten Token‑Gewichten und einer schicht‑adaptiven Auswahl werden nur die wichtigsten Tokens beibehalten und zu sogenannten Composite Tokens zusammengefasst. arXiv – cs.LG 08.09.2025 05:00