KI News: Kurz und klar.

Zeitraumfilter wirken auf die Hauptliste unten.

Themen: Alle for and the with via models learning agents model reasoning language data

📊 Unsere Analyse

📊 Tagesanalyse ✓ Original 3 Min.

<h2>KI‑Wellen: Effizienz, Agenten und ethische Kontrolle – ein Tag der Durchbrüche</h2>

Mehr Transparenz, mehr Kontrolle, mehr Verantwortung: Heute zeigen multimodale Modelle, Agenten und neue Sicherheitsansätze, dass KI nicht mehr nur ein Werkzeug, sondern ein komplexes Ökosystem ist. Der 11. Februar 2026 war ein Tag, an dem die KI‑For…

11.02.2026 07:04 Weiterlesen

Kollaboration von Sprachmodellen über versteckte Zustände

Neues Forschungsergebnis aus dem Bereich des Reinforcement Learning (RL) zeigt, dass kleine, spezialisierte Sprachmodelle (SLMs) ohne große monolithische Modelle komplexes, strukturiertes Denken demonstrieren können. Durch die Einführung einer „soft hidden‑state collaboration“ werden mehrere heterogene, eingefrorene SLM‑Experten über ein trainierbares Aufmerksamkeitsinterface miteinander verbunden.

arXiv – cs.LG

11.02.2026 05:00

Adaptive Retrieval verbessert LLM-Logik – aber nur selten

In einer neuen Studie von arXiv:2602.07213v1 wird aufgezeigt, warum große Sprachmodelle (LLMs) bei komplexen Rechenaufgaben oft scheitern: Ihr Wissen ist statisch und parametriert, was zu Halluzinationen und schlechter Leistung in Fachgebieten wie Mathematik führt. Die Autoren schlagen vor, Retrieval als dynamisches „in‑Context‑Learning“ zu nutzen, um diese Schwächen zu überwinden.

arXiv – cs.LG

10.02.2026 05:00

TinyLoRA: Mit nur 13 Parametern 91 % Genauigkeit auf GSM8K erreichen

In einer neuen Studie wird gezeigt, dass Sprachmodelle mit einer extrem kleinen Anzahl von trainierbaren Parametern lernen können, komplexe Rechenaufgaben zu lösen. Das Verfahren TinyLoRA reduziert die Größe von Low‑Rank‑Adapters auf lediglich einen Parameter, wodurch die üblichen Beschränkungen von LoRA, die nicht unter die Modelldimension fallen, umgangen werden.

arXiv – cs.LG

05.02.2026 05:00

LLM-Fehler frühzeitig erkennen: Instabilitätssignal vorhersagt Ausfälle

In einer neuen Studie von Forschern aus dem Bereich der künstlichen Intelligenz wird gezeigt, dass Fehler bei der Beantwortung von Fragen durch große Sprachmodelle (LLMs) nicht nur am Ende einer Textgenerierung auftreten, sondern häufig schon mitten im Denkprozess. Die Autoren haben ein einfaches, aber wirkungsvolles Signal entwickelt, das auf reinen Inferenzdaten basiert und ohne zusätzliche Trainingsschritte funktioniert.

arXiv – cs.AI

04.02.2026 05:00

TabularMath: Benchmark prüft, ob Tabellenmodelle Computation extrapolieren können

In der Welt der tabellarischen Daten konzentrieren sich die meisten Benchmarks bislang auf die Fähigkeit von Modellen, Werte innerhalb eines Datenraums zu interpolieren. Doch viele wertvolle Anwendungsbereiche – etwa Finanzmodelle oder physikalische Simulationen – beruhen auf deterministischen Berechnungen, bei denen Genauigkeit und Extrapolation entscheidend sind.

arXiv – cs.LG

04.02.2026 05:00

SALR: Sparsity‑Aware Low‑Rank Representation beschleunigt Feinabstimmung von LLMs

Die neue Methode SALR (Sparsity‑Aware Low‑Rank Representation) löst ein zentrales Problem bei der Anpassung großer Sprachmodelle: Sie reduziert die Anzahl der zu trainierenden Parameter drastisch, ohne die Modellleistung zu beeinträchtigen. Dadurch wird das Feintuning in ressourcenbeschränkten Umgebungen praktikabel.

arXiv – cs.LG

27.01.2026 05:00

Neues Konzept: Digitale Metabolismus trennt Logik von Fakten in LLMs

In großen Sprachmodellen verschmelzen Logik und Fakten zu einer einzigen, schwer zu trennenden Gewichtsschicht. Dieses Phänomen, das als Parameter‑Entanglement bezeichnet wird, führt zu einer „Memory Wall“, bei der die Rechenleistung unnötig für die Simulation von Abrufprozessen aufgewendet wird und häufig Halluzinationen erzeugt.

arXiv – cs.AI

19.01.2026 05:00

RLHF führt dazu, dass Sprachmodelle Sicherheitssignale in Gesprächen ignorieren

In einer neuen Untersuchung auf arXiv wurde gezeigt, dass Sprachmodelle, die mit Reinforcement Learning from Human Feedback (RLHF) trainiert wurden, externe Sicherheitssignale in natürlicher Konversation häufig ignorieren. Die Studie betont, dass moderne Sicherheitsarchitekturen vermehrt auf externe Monitore angewiesen sind, um Fehler zu erkennen und Korrekturen in Echtzeit einzufügen. Damit solche Systeme in interaktiven Anwendungen funktionieren, müssen die Modelle in der Lage sein, von außen bereitgestellte Vertrauenssignale in ihre Antworten einzubauen.

arXiv – cs.AI

15.01.2026 05:00

Kontamination in Sprachmodellen: Wie Post‑Training die Leistung beeinflusst

In einer neuen Studie von arXiv 2601.06103v1 wird untersucht, wie sich Datenkontamination auf die gängigen Post‑Training‑Schritte großer Sprachmodelle auswirkt. Dabei wurden die Modelle Qwen2.5 (0,5 B/1,5 B) und Gemma3 (1 B/4 B) zunächst sauber trainiert und anschließend fünf Kopien von GSM8K‑ und MBPP‑Testaufgaben in die ersten 2 B Token eines 25 B‑Token‑erweiterten Pre‑Training‑Datensatzes eingebracht.

arXiv – cs.LG

13.01.2026 05:00

RoBoN: Mehrere LLMs im Testzeit-Skalieren – Neue Methode steigert Genauigkeit

Eine neue Technik namens RoBoN (Routed Online Best‑of‑n) ermöglicht es, mehrere große Sprachmodelle (LLMs) gleichzeitig zu nutzen, um die Genauigkeit von Antworten zu erhöhen. Im Gegensatz zu herkömmlichen Best‑of‑n‑Ansätzen, die nur ein einzelnes Modell einsetzen, routet RoBoN die Generierung von Texten sequentiell durch eine Auswahl von Modellen. Dabei werden die Antworten anhand von Belohnungsmodellen und Übereinstimmungs‑Signalen bewertet, um das nächste Modell zu bestimmen.

arXiv – cs.LG

08.12.2025 05:00

Hierarchische Kontaminationsprüfung: Sicherer Einsatz synthetischer Trainingsdaten

In der heutigen KI‑Entwicklung sind synthetische Daten unverzichtbar, um Basismodelle zu trainieren. Gleichzeitig gefährdet die Kontamination dieser Daten die Integrität von Benchmarks, denn Modelle können unbemerkt Benchmarkwissen übernehmen.

arXiv – cs.LG

25.11.2025 05:00

LLMs sind mathematisch verwundbar: Neue Studie zeigt Schwächen bei Wortänderungen

Eine aktuelle Untersuchung hat gezeigt, dass große Sprachmodelle (LLMs) bei mathematischen Aufgaben stark anfällig für kleine Eingabeveränderungen sind. Trotz ihrer beeindruckenden Leistungen bei komplexen Rechenaufgaben bleiben die Robustheit und Effizienz dieser Modelle unter geringfügigen Störungen unzureichend erforscht.

arXiv – cs.AI

12.11.2025 05:00

Dynamische Schwellenwerte beschleunigen Diffusions‑Sprachmodelle

Maskierte Diffusions‑Sprachmodelle (MDLMs) kommen immer näher an die Leistung ihrer autoregressiven Gegenstücke, doch sie nutzen meist feste Decodierungsschritte und sequentielles Unmaskieren. Um die Geschwindigkeit zu erhöhen, hat Fast‑dLLM einen statischen globalen Vertrauensschwellenwert eingeführt, der jedoch starke Schwankungen in Block- und Schritt‑Weise aufweist und innerhalb eines Datensatzes nahezu identische Vertrauenskurven für verschiedene Eingaben erzeugt.

arXiv – cs.LG

05.11.2025 05:00

CAC-CoT: 2/3 kürzere Chain-of-Thought-Traces, ohne Genauigkeitsverlust

Das neue Verfahren CAC-CoT (Connector‑Aware Compact Chain‑of‑Thought) reduziert die Länge der Chain‑of‑Thought‑Spuren drastisch, ohne die Leistung zu beeinträchtigen. Durch die gezielte Beschränkung auf ein kleines Set von Verbindungssätzen führt das Modell zu prägnanten, gut strukturierten Erklärungen. In Tests mit Gemini‑2.0‑Flash erzielt CAC‑CoT rund 85 % bei GSM8K, etwa 40 % bei GPQA und behält gleichzeitig ca. 90 % bei S1‑Bench bei. Die durchschnittliche Spurenlänge beträgt nur etwa 300 Tokens – das ist ungefähr ein Drittel der üblichen Länge – und sorgt so für höhere Effizienz bei gleichbleibender Genauigkeit.

arXiv – cs.AI

27.08.2025 05:00

GEM: Skalierungs‑ und Verteilungs‑Sensitivität verbessert Genauigkeit um 1,6 %

In der Welt der großen vortrainierten Sprachmodelle gewinnt Parameter‑Effizientes Fine‑Tuning (PEFT) immer mehr an Bedeutung. Dabei werden nur wenige Modellparameter angepasst, während der Rest unverändert bleibt. Das spart Rechenleistung, doch die üblichen PEFT‑Methoden berücksichtigen häufig nicht, wie groß die einzelnen Parameter bereits sind. Dadurch können die vorgenommenen Änderungen im Modellverhalten kaum spürbar sein.

arXiv – cs.LG

25.08.2025 05:00

KI News: Kurz und klar.

Für dich

Gespeichert

📊 Unsere Analyse

<h2>KI‑Wellen: Effizienz, Agenten und ethische Kontrolle – ein Tag der Durchbrüche</h2>

Kollaboration von Sprachmodellen über versteckte Zustände

Adaptive Retrieval verbessert LLM-Logik – aber nur selten

TinyLoRA: Mit nur 13 Parametern 91 % Genauigkeit auf GSM8K erreichen

LLM-Fehler frühzeitig erkennen: Instabilitätssignal vorhersagt Ausfälle

TabularMath: Benchmark prüft, ob Tabellenmodelle Computation extrapolieren können

SALR: Sparsity‑Aware Low‑Rank Representation beschleunigt Feinabstimmung von LLMs

Neues Konzept: Digitale Metabolismus trennt Logik von Fakten in LLMs

RLHF führt dazu, dass Sprachmodelle Sicherheitssignale in Gesprächen ignorieren

Kontamination in Sprachmodellen: Wie Post‑Training die Leistung beeinflusst

RoBoN: Mehrere LLMs im Testzeit-Skalieren – Neue Methode steigert Genauigkeit

Hierarchische Kontaminationsprüfung: Sicherer Einsatz synthetischer Trainingsdaten

LLMs sind mathematisch verwundbar: Neue Studie zeigt Schwächen bei Wortänderungen

Dynamische Schwellenwerte beschleunigen Diffusions‑Sprachmodelle

CAC-CoT: 2/3 kürzere Chain-of-Thought-Traces, ohne Genauigkeitsverlust

GEM: Skalierungs‑ und Verteilungs‑Sensitivität verbessert Genauigkeit um 1,6 %

KI News: Kurz und klar.

Für dich

Gespeichert

📊 Unsere Analyse

<h2>KI‑Wellen: Effizienz, Agenten und ethische Kontrolle – ein Tag der Durchbrüche</h2>

Kollaboration von Sprachmodellen über versteckte Zustände

Adaptive Retrieval verbessert LLM-Logik – aber nur selten

TinyLoRA: Mit nur 13 Parametern 91 % Genauigkeit auf GSM8K erreichen

LLM-Fehler frühzeitig erkennen: Instabilitätssignal vorhersagt Ausfälle

TabularMath: Benchmark prüft, ob Tabellenmodelle Computation extrapolieren können

SALR: Sparsity‑Aware Low‑Rank Representation beschleunigt Feinabstimmung von LLMs

Neues Konzept: Digitale Metabolismus trennt Logik von Fakten in LLMs

RLHF führt dazu, dass Sprachmodelle Sicherheitssignale in Gesprächen ignorieren

Kontamination in Sprachmodellen: Wie Post‑Training die Leistung beeinflusst

RoBoN: Mehrere LLMs im Testzeit-Skalieren – Neue Methode steigert Genauigkeit

Hierarchische Kontaminationsprüfung: Sicherer Einsatz synthetischer Trainingsdaten

LLMs sind mathematisch verwundbar: Neue Studie zeigt Schwächen bei Wortänderungen

Dynamische Schwellenwerte beschleunigen Diffusions‑Sprachmodelle

CAC-CoT: 2/3 kürzere Chain-of-Thought-Traces, ohne Genauigkeitsverlust

GEM: Skalierungs‑ und Verteilungs‑Sensitivität verbessert Genauigkeit um 1,6 %

🍪 Cookie-Einstellungen

TinyLoRA: Mit nur 13 Parametern 91 % Genauigkeit auf GSM8K erreichen

GEM: Skalierungs‑ und Verteilungs‑Sensitivität verbessert Genauigkeit um 1,6 %