Suche nach DeepSeek | meineki.news

Persistente KV-Cache: Multi-Agent-LLM auf Edge-Geräten effizienter

Multi-Agent-LLM-Systeme, die auf Edge-Geräten laufen, stoßen häufig an die Grenzen des verfügbaren RAMs. Auf einem Apple M4 Pro mit einem C…

arXiv – cs.LG 06.03.2026 05:00

Forschung

Neues neurosymbolisches Verfahren verschiebt Erzählungen effizienter als LLMs

Die Kunst der wirkungsvollen Kommunikation hängt stark davon ab, wie gut eine Botschaft mit der Erzählweise und Weltanschauung des Publikum…

arXiv – cs.AI 05.03.2026 05:00

Forschung

Neues ERI-Benchmark: 57.750 Aufgaben für Ingenieur-LLMs

Ein brandneues Benchmark-Dataset namens Engineering Reasoning and Instruction (ERI) wurde veröffentlicht, das speziell dafür entwickelt wur…

arXiv – cs.AI 04.03.2026 05:00

Forschung

ParEVO: KI-generierte Parallelalgorithmen für unregelmäßige Daten – 106‑facher Speedup

Der Sprung von sequentiellen zu parallelen Systemen ist für moderne Hochleistungsanwendungen unverzichtbar, doch die steile Lernkurve der C…

arXiv – cs.LG 04.03.2026 05:00

Forschung

ODAR: Prinzipielle adaptive Routenplanung für LLM-Logik mittels aktiver Inferenz

Die Art und Weise, wie große Sprachmodelle (LLMs) logische Aufgaben lösen, hat sich grundlegend gewandelt: Statt die Modellparameter weiter…

arXiv – cs.AI 02.03.2026 05:00

Forschung

Mit Autoren-Graphen neue Forschungsideen generieren – LLMs im Fokus

Große Sprachmodelle (LLMs) zeigen großes Potenzial für die Generierung wissenschaftlicher Ideen, doch die Ergebnisse fehlen oft an kontroll…

arXiv – cs.AI 27.02.2026 05:00

Forschung

KI-Modelle versagen bei islamischem Recht: 68 % Genauigkeit, 21 % Halluzination

Mit der rasanten Verbreitung von Sprachmodellen wie GPT, Claude und DeepSeek wenden sich Millionen von Muslimen zunehmend an diese Systeme…

arXiv – cs.AI 26.02.2026 05:00

Forschung

Bewertung von KI-Modellen in Quantenmechanik: Vergleichende Studie

Eine neue Untersuchung aus dem arXiv-Repository hat die Leistungsfähigkeit von 15 großen Sprachmodellen auf Quantenmechanik-Aufgaben system…

arXiv – cs.AI 24.02.2026 05:00

Aktuell

Anthropic beschuldigt DeepSeek, Moonshot, MiniMax: >16 Mio. Distillation‑Angriffe

We need to produce the output. The content is already German. So we just output the same content as HTML with tags. No extra metadata. So j…

Latent Space 24.02.2026 04:48

Forschung

Quantisierung von Sprachmodellen auf Ascend NPU: Erfolgreich, aber herausfordernd

Post‑Training‑Quantisierung (PTQ) ist ein entscheidender Schritt für die effiziente Bereitstellung von KI‑Modellen. Auf der Ascend NPU, ein…

arXiv – cs.AI 23.02.2026 05:00

Forschung

Effizientes Training großer Rechenmodelle durch Progressive Thought Encoding

Große Rechenmodelle für komplexe Aufgaben sind äußerst leistungsfähig, doch ihr Training mit Reinforcement Learning (RL) bleibt ein Engpass…

arXiv – cs.LG 20.02.2026 05:00

Forschung

SD-MoE: Spektrale Trennung steigert Experten-Spezialisierung in Sprachmodellen

Ein neues arXiv-Papier präsentiert SD-MoE, eine Methode, die die Spektralstruktur von Parametern und Gradienten nutzt, um die Effektivität…

arXiv – cs.LG 16.02.2026 05:00

Forschung

Crosscoders ermöglichen architekturübergreifenden Modellvergleich – LLM‑Erkenntnisse

Model‑Diffing, also der Vergleich interner Repräsentationen von Sprachmodellen, gilt als vielversprechende Methode, um sicherheitskritische…

arXiv – cs.AI 13.02.2026 05:00

Forschung

PASCAL: Neuer Scheduling-Algorithmus verkürzt TTFT bei Chain-of-Thought-LLMs um 72 %

In einer kürzlich veröffentlichten Arbeit auf arXiv präsentiert das Forschungsteam den Algorithmus PASCAL, der die Ausführung von reasoning…

arXiv – cs.LG 13.02.2026 05:00

Forschung

HiFloat4: Neues Floating-Point-Format steigert Genauigkeit bei Sprachmodellen

In einer kürzlich veröffentlichten Arbeit auf arXiv (2602.11287v1) stellt das Forschungsteam das neue HiFloat4 (HiF4)-Format vor – ein bloc…

arXiv – cs.LG 13.02.2026 05:00

Aktuell

Chinesische KI-Revolution: Open-Source-Modelle schlagen Westen bei Kosten

Im vergangenen Jahr hat sich die KI-Landschaft in China grundlegend gewandelt. Bereits im Januar 2025 stellte DeepSeek mit seinem R1‑Reason…

MIT Technology Review – Artificial Intelligence 12.02.2026 10:00

Forschung

MoE-LLM-Kompression durch Routing-Frequenz und Informationsdichte

Die neuesten Fortschritte bei Mixture-of-Experts (MoE) Modellen haben die Leistungsfähigkeit großer Sprachmodelle deutlich gesteigert – doc…

arXiv – cs.LG 11.02.2026 05:00

Forschung

HealthRubrics & HealthPrinciples: KI‑Alignment in der Medizin verbessert

Die Künstliche Intelligenz hat in den letzten Jahren enorme Fortschritte im medizinischen Fachwissen erzielt, doch die Feinabstimmung ihrer…

arXiv – cs.AI 11.02.2026 05:00

Forschung

Ein Prompt macht KI-Modelle unsicher – neue Methode GRP-Oblit

Die Sicherheit von Sprachmodellen hängt von ihrem schwächsten Punkt ab. Obwohl umfangreiche Arbeiten zur Sicherheit nach dem Training exist…

arXiv – cs.LG 09.02.2026 05:00

Forschung

AgentCPM-Explore: 4B-Agent erreicht SOTA bei Edge-Scale-Exploration

Ein neues Forschungsergebnis zeigt, dass ein 4‑Billionen‑Parameter‑Agent namens AgentCPM‑Explore die Grenzen von Edge‑Scale‑Modellen spreng…

arXiv – cs.AI 09.02.2026 05:00

Forschung

Generische Aussagen: Missverständnisse zwischen Laien, Forschern und KI

In der Wissenschaftskommunikation greifen Forscher häufig auf generische Formulierungen zurück, also auf unquantifizierte Aussagen über gan…

arXiv – cs.AI 09.02.2026 05:00

Forschung

WideSeek-R1: Breite Skalierung mit Multi-Agenten für umfassende Informationssuche

Die jüngsten Fortschritte bei großen Sprachmodellen konzentrieren sich überwiegend auf die Tiefenskalierung, bei der ein einzelner Agent ko…

arXiv – cs.AI 05.02.2026 05:00

Forschung

<h1>Wie viel Information kann ein Vision-Token speichern? Skalierungsregel für VLMs</h1> <p>Neueste vision‑zentrierte Modelle, wie DeepSeek‑OCR, haben die Fähigkeit, Text in Bildern in kontinuierliche Vision‑Tokens zu kodieren, ohne dabei die Erkennungsgenauigkeit zu verlieren. Durch diese hohe Kompression entsteht jedoch die Frage nach der maximalen Informationsmenge, die ein einzelner Token tragen kann.</p> <p>Um diese Grenze zu bestimmen, führten die Forscher gezielte Belastungstests durch, bei denen sie

arXiv – cs.LG 04.02.2026 05:00

Forschung

ThinkSafe: Selbstgenerierte Sicherheitsausrichtung für große Rechenmodelle

In einer neuen Veröffentlichung auf arXiv (2601.23143v1) stellen die Autoren das Projekt ThinkSafe vor, das die Sicherheit großer Rechenmod…

arXiv – cs.AI 02.02.2026 05:00

Forschung

Sprach-, Sicht- und Handlungsmodelle zeigen überraschende Übereinstimmung

Eine neue Studie aus dem Bereich der Kognitionswissenschaft und künstlichen Intelligenz hat gezeigt, dass Modelle, die auf unterschiedliche…

arXiv – cs.AI 02.02.2026 05:00

Forschung

OpenSec: Neue Benchmark für Incident-Response-Agenten unter Angriffsszenarien

Mit dem rasanten Fortschritt großer Sprachmodelle steigen auch deren Einsatzmöglichkeiten im Angriffsszenario. Während neue Agenten in weni…

arXiv – cs.AI 30.01.2026 05:00

Praxis

DeepSeek AI präsentiert DeepSeek‑OCR 2: Neuer OCR‑Ansatz mit kausaler Bildfluss‑Encoder

DeepSeek AI hat die neue Version DeepSeek‑OCR 2 veröffentlicht, ein Open‑Source-System für optische Zeichenerkennung und Dokumentverständni…

MarkTechPost 30.01.2026 08:21

Forschung

Medizinische Chatbots lernen selbstständig: Online RL mit Informationsgewinn

Eine neue Methode namens Information Gain Fine‑Tuning (IGFT) ermöglicht es medizinischen Konversations-KI, effektive Patienteninterviews zu…

arXiv – cs.AI 27.01.2026 05:00

Forschung

UniCog enthüllt kognitive Fähigkeiten von LLMs durch latentes Mind‑Space‑Analyse

Eine neue Studie aus dem Bereich der künstlichen Intelligenz hat gezeigt, dass die kognitiven Prozesse großer Sprachmodelle (LLMs) grundleg…

arXiv – cs.AI 27.01.2026 05:00

Forschung

Neues Konzept: Digitale Metabolismus trennt Logik von Fakten in LLMs

In großen Sprachmodellen verschmelzen Logik und Fakten zu einer einzigen, schwer zu trennenden Gewichtsschicht. Dieses Phänomen, das als Pa…

arXiv – cs.AI 19.01.2026 05:00

Finde Modelle, Firmen und Themen

Persistente KV-Cache: Multi-Agent-LLM auf Edge-Geräten effizienter

Neues neurosymbolisches Verfahren verschiebt Erzählungen effizienter als LLMs

Neues ERI-Benchmark: 57.750 Aufgaben für Ingenieur-LLMs

ParEVO: KI-generierte Parallelalgorithmen für unregelmäßige Daten – 106‑facher Speedup

ODAR: Prinzipielle adaptive Routenplanung für LLM-Logik mittels aktiver Inferenz

Mit Autoren-Graphen neue Forschungsideen generieren – LLMs im Fokus

KI-Modelle versagen bei islamischem Recht: 68 % Genauigkeit, 21 % Halluzination

Bewertung von KI-Modellen in Quantenmechanik: Vergleichende Studie

Anthropic beschuldigt DeepSeek, Moonshot, MiniMax: >16 Mio. Distillation‑Angriffe

Quantisierung von Sprachmodellen auf Ascend NPU: Erfolgreich, aber herausfordernd

Effizientes Training großer Rechenmodelle durch Progressive Thought Encoding

SD-MoE: Spektrale Trennung steigert Experten-Spezialisierung in Sprachmodellen

Crosscoders ermöglichen architekturübergreifenden Modellvergleich – LLM‑Erkenntnisse

PASCAL: Neuer Scheduling-Algorithmus verkürzt TTFT bei Chain-of-Thought-LLMs um 72 %

HiFloat4: Neues Floating-Point-Format steigert Genauigkeit bei Sprachmodellen

Chinesische KI-Revolution: Open-Source-Modelle schlagen Westen bei Kosten

MoE-LLM-Kompression durch Routing-Frequenz und Informationsdichte

HealthRubrics & HealthPrinciples: KI‑Alignment in der Medizin verbessert

Ein Prompt macht KI-Modelle unsicher – neue Methode GRP-Oblit

AgentCPM-Explore: 4B-Agent erreicht SOTA bei Edge-Scale-Exploration

Generische Aussagen: Missverständnisse zwischen Laien, Forschern und KI

WideSeek-R1: Breite Skalierung mit Multi-Agenten für umfassende Informationssuche

ThinkSafe: Selbstgenerierte Sicherheitsausrichtung für große Rechenmodelle

Sprach-, Sicht- und Handlungsmodelle zeigen überraschende Übereinstimmung

OpenSec: Neue Benchmark für Incident-Response-Agenten unter Angriffsszenarien

DeepSeek AI präsentiert DeepSeek‑OCR 2: Neuer OCR‑Ansatz mit kausaler Bildfluss‑Encoder

Medizinische Chatbots lernen selbstständig: Online RL mit Informationsgewinn

UniCog enthüllt kognitive Fähigkeiten von LLMs durch latentes Mind‑Space‑Analyse

Neues Konzept: Digitale Metabolismus trennt Logik von Fakten in LLMs

🍪 Cookie-Einstellungen

KI-Modelle versagen bei islamischem Recht: 68 % Genauigkeit, 21 % Halluzination

PASCAL: Neuer Scheduling-Algorithmus verkürzt TTFT bei Chain-of-Thought-LLMs um 72 %

DeepSeek AI präsentiert DeepSeek‑OCR 2: Neuer OCR‑Ansatz mit kausaler Bildfluss‑Encoder