Suche nach Benchmarks | meineki.news

Google präsentiert Android Bench – neues LLM-Benchmark für Android

Google hat Android Bench veröffentlicht, ein neues Leaderboard und Evaluationsframework, das speziell darauf abzielt, die Leistung von Larg…

MarkTechPost 06.03.2026 19:53

Forschung

Maschinelles Vorstellungsvermögen verbessert Zero-Shot-Kommonsense-Logik

Neuste Fortschritte im Zero-Shot-Kommonsense-Reasoning haben vortrainierte Sprachmodelle (PLMs) dazu befähigt, umfangreiches Allgemeinwisse…

arXiv – cs.AI 06.03.2026 05:00

Forschung

WebFactory: Automatisierte Kompression von Sprachmodellwissen zu Web-Agenten

Die Entwicklung von GUI-Agenten steht bislang vor zwei großen Hindernissen: Entweder greifen sie auf unsichere, nicht reproduzierbare Live-…

arXiv – cs.AI 06.03.2026 05:00

Forschung

VSPrefill: Neue Sparse‑Attention für lange Kontexte – 4,95‑fach schneller

Die quadratische Komplexität der Selbst‑Attention‑Phase behindert die Nutzung von Sprachmodellen mit sehr langen Kontexten. Bestehende Spar…

arXiv – cs.LG 06.03.2026 05:00

Forschung

SkillNet: KI‑Fähigkeiten systematisch bündeln und verbessern

KI‑Agenten können heute flexibel Werkzeuge anrufen und komplexe Aufgaben erledigen, doch ihr langfristiger Fortschritt bleibt durch das Feh…

arXiv – cs.AI 06.03.2026 05:00

Forschung

Distribution-Conditioned Transport: Generalisierbare Transportmodelle

In der modernen Datenanalyse besteht die Herausforderung, Transportmodelle zu entwickeln, die nicht nur bekannte Quell- und Zielverteilunge…

arXiv – cs.LG 06.03.2026 05:00

Forschung

PPO bleibt robust: Sequenzmodelle bekämpfen Sensorfehler in RL-Systemen

Reinforcement‑Learning‑Systeme müssen in der Praxis mit Veränderungen in ihren Beobachtungsdaten umgehen können. Die meisten gängigen Polic…

arXiv – cs.LG 06.03.2026 05:00

Forschung

Neues Verfahren: Multimodales In-Context-Lernen mit Differenzierter Privatsphäre

Vision‑Language‑Modelle werden zunehmend in sensiblen Bereichen wie medizinischer Bildgebung und privaten Fotos eingesetzt. Bisher beschrän…

arXiv – cs.AI 06.03.2026 05:00

Forschung

Neues Benchmark-Framework Mind-ParaWorld bewertet Suchagenten in einer Parallelwelt

Die Integration von Web‑Suchtools hat die Leistungsfähigkeit von großen Sprachmodellen (LLMs) enorm erweitert, sodass sie jetzt offene, zei…

arXiv – cs.AI 06.03.2026 05:00

Forschung

Mehrere Runden, mehr Genauigkeit: MA‑RAG verbessert medizinisches Denken

Large Language Models (LLMs) zeigen großes Potenzial im medizinischen Frage‑Antwort‑Bereich, doch ihre Neigung zu Halluzinationen und veral…

arXiv – cs.AI 05.03.2026 05:00

Forschung

Count Bridges ermöglichen Modellierung und Dekonvolution von Transkriptomdaten

Eine neue Methode namens Count Bridges, vorgestellt auf arXiv, bietet ein genaues und handhabbares Pendant zu Diffusionsmodellen – jedoch s…

arXiv – cs.LG 06.03.2026 05:00

Forschung

Flowers: Neuronales Modell für PDEs ohne Fourier- oder Convolution-Methoden

In einer kürzlich veröffentlichten Arbeit auf arXiv präsentiert das Forschungsteam die Architektur „Flowers“, ein neuronales Modell, das di…

arXiv – cs.LG 06.03.2026 05:00

Forschung

Agentics 2.0: Python-Framework für zuverlässige Agenten-Workflows

Agentics 2.0 ist ein leichtgewichtiges, Python‑native Framework, das die Entwicklung von hochqualitativen, strukturierten und erklärbaren A…

arXiv – cs.AI 05.03.2026 05:00

Forschung

Neuer Ansatz reduziert Bias bei Feature-Attributionen in KI-Modellen

In der KI-Welt sind Erklärungen zu Feature‑Attributionen ein zentrales Thema, doch viele gängige Methoden liefern oft unzuverlässige Wichti…

arXiv – cs.LG 06.03.2026 05:00

Forschung

Unlearnable Examples schlagen zurück: Pretraining macht sie nutzlos

Unlearnable Examples (UEs) sind ein Schutzmechanismus, der unsichtbare Störungen in Daten einfügt, um Modelle dazu zu bringen, falsche Zusa…

arXiv – cs.LG 06.03.2026 05:00

Forschung

Dynamische Datenauswahl: Neue Definition von Repräsentativität und Vielfalt

In einer neuen Studie wird gezeigt, wie dynamische Datenauswahl das Training von Modellen beschleunigt, ohne die Genauigkeit zu beeinträcht…

arXiv – cs.AI 06.03.2026 05:00

Forschung

TATRA: Instanzbasiertes Prompting ohne Training – neue Methode für LLMs

Die Leistungsfähigkeit großer Sprachmodelle (LLMs) hat sich in den letzten Jahren stark verbessert, doch ihre Reaktion auf unterschiedliche…

arXiv – cs.AI 05.03.2026 05:00

Forschung

Neue interaktive Benchmarks: So testen wir KI wirklich<br/><p>Standard-Benchmarks werden zunehmend unzuverlässig, weil sie gesättigt, subjektiv und schlecht generalisierbar sind. Aus diesem Grund stellen die Autoren des arXiv‑Papiers (2603.04737v1) ein neues Evaluationsparadigma vor: Interaktive Benchmarks. Dabei wird die Fähigkeit eines Modells gemessen, aktiv Informationen zu beschaffen und damit seine Intelligenz zu demonstrieren.</p><p>Das Konzept umfasst zwei Hauptbereiche. In „Interactive Proofs“ arbe

arXiv – cs.AI 06.03.2026 05:00

Forschung

Autorisation on Demand: Dynamische Rechteverwaltung für Vision‑Language‑Modelle

Die rasante Verbreitung von Vision‑Language‑Modellen (VLMs) hat die Nachfrage nach effektiven Schutzmechanismen für geistiges Eigentum (IP)…

arXiv – cs.AI 06.03.2026 05:00

Forschung

KI entdeckt neues Wissen: Dynamisches Benchmark für biologische Forschung

Neuste Fortschritte bei Large Language Models (LLMs) zeigen, dass KI-Systeme erstaunliche Möglichkeiten im automatischen Wissensentdecken b…

arXiv – cs.AI 05.03.2026 05:00

Forschung

Neurale Netzwerke vergessen: Studie verbindet Kollaps mit Ausfallleistung

In einer neuen Untersuchung auf arXiv wird das Phänomen des „catastrophischen Vergessens“ in kontinuierlichen Lernsystemen genauer beleucht…

arXiv – cs.LG 06.03.2026 05:00

Forschung

LifeBench: Neuer Benchmark für Langzeit‑Memory mit Multi‑Source‑Ansatz

Die Forschungsgruppe hat LifeBench vorgestellt, einen neuen Benchmark, der die Leistungsfähigkeit von KI‑Agenten im Bereich des Langzeit‑Me…

arXiv – cs.AI 05.03.2026 05:00

Forschung

Neue Methode steigert Genauigkeit strukturierter LLM-Ausgaben um bis zu 24 %

Moderne Sprachmodelle werden zunehmend eingesetzt, um ausführbare Ausgaben wie JSON‑Objekte oder API‑Aufrufe zu erzeugen. Dabei kann ein ei…

arXiv – cs.AI 05.03.2026 05:00

Forschung

Neue Methode reduziert Überabweisungen bei Sprachmodellen – DCR steigert Sicherheit

Sprachmodelle, die für Sicherheit abgestimmt sind, neigen häufig dazu, zu viele Anfragen abzulehnen, selbst wenn diese harmlos sind. Dieses…

arXiv – cs.AI 05.03.2026 05:00

Forschung

PlugMem: Aufgabenunabhängiges Speicher-Plugin für LLM-Agenten

Langfristiges Gedächtnis ist für große Sprachmodelle (LLM), die in komplexen Umgebungen arbeiten, unverzichtbar. Bisherige Speicherlösungen…

arXiv – cs.AI 05.03.2026 05:00

Forschung

GLOT: Token‑Graphen verbessern Satzrepräsentationen effizient

Ein neues Verfahren namens GLOT nutzt Token‑Graphen, um aus den Ausgaben eines eingefrorenen großen Sprachmodells (LLM) präzise Satzvektore…

arXiv – cs.LG 05.03.2026 05:00

Forschung

Adaptive Messung physikalischer Systeme verbessert ML‑Vorhersagen

In einer neuen Studie wird gezeigt, wie physikalische Dynamiksysteme als natürliche Informationsverarbeiter genutzt werden können. Durch ge…

arXiv – cs.LG 05.03.2026 05:00

Forschung

mlx-snn: Spiking Neural Networks jetzt nativ auf Apple Silicon

Mit der neuen Bibliothek mlx-snn wird Spiking Neural Network (SNN) Forschung endlich nativ auf Apple Silicon möglich. Die erste SNN‑Bibliot…

arXiv – cs.LG 05.03.2026 05:00

Forschung

AgentSelect: Benchmark für narrative Agentenempfehlungen

LLM‑Agenten werden zunehmend zum praktischen Interface für die Automatisierung von Aufgaben. Trotz dieser raschen Verbreitung fehlt bislang…

arXiv – cs.AI 05.03.2026 05:00

Forschung

Mathematische Modelle: Erfolgreich, aber instabil – Das Tiefe‑Genauigkeit-Paradox

Mathematische Rechenmodelle werden heute in Bildung, automatisierten Tutorien und Entscheidungsunterstützungssystemen eingesetzt, obwohl si…

arXiv – cs.LG 05.03.2026 05:00

Finde Modelle, Firmen und Themen

Google präsentiert Android Bench – neues LLM-Benchmark für Android

Maschinelles Vorstellungsvermögen verbessert Zero-Shot-Kommonsense-Logik

WebFactory: Automatisierte Kompression von Sprachmodellwissen zu Web-Agenten

VSPrefill: Neue Sparse‑Attention für lange Kontexte – 4,95‑fach schneller

SkillNet: KI‑Fähigkeiten systematisch bündeln und verbessern

Distribution-Conditioned Transport: Generalisierbare Transportmodelle

PPO bleibt robust: Sequenzmodelle bekämpfen Sensorfehler in RL-Systemen

Neues Verfahren: Multimodales In-Context-Lernen mit Differenzierter Privatsphäre

Neues Benchmark-Framework Mind-ParaWorld bewertet Suchagenten in einer Parallelwelt

Mehrere Runden, mehr Genauigkeit: MA‑RAG verbessert medizinisches Denken

Count Bridges ermöglichen Modellierung und Dekonvolution von Transkriptomdaten

Flowers: Neuronales Modell für PDEs ohne Fourier- oder Convolution-Methoden

Agentics 2.0: Python-Framework für zuverlässige Agenten-Workflows

Neuer Ansatz reduziert Bias bei Feature-Attributionen in KI-Modellen

Unlearnable Examples schlagen zurück: Pretraining macht sie nutzlos

Dynamische Datenauswahl: Neue Definition von Repräsentativität und Vielfalt

TATRA: Instanzbasiertes Prompting ohne Training – neue Methode für LLMs

Autorisation on Demand: Dynamische Rechteverwaltung für Vision‑Language‑Modelle

KI entdeckt neues Wissen: Dynamisches Benchmark für biologische Forschung

Neurale Netzwerke vergessen: Studie verbindet Kollaps mit Ausfallleistung

LifeBench: Neuer Benchmark für Langzeit‑Memory mit Multi‑Source‑Ansatz

Neue Methode steigert Genauigkeit strukturierter LLM-Ausgaben um bis zu 24 %

Neue Methode reduziert Überabweisungen bei Sprachmodellen – DCR steigert Sicherheit

PlugMem: Aufgabenunabhängiges Speicher-Plugin für LLM-Agenten

GLOT: Token‑Graphen verbessern Satzrepräsentationen effizient

Adaptive Messung physikalischer Systeme verbessert ML‑Vorhersagen

mlx-snn: Spiking Neural Networks jetzt nativ auf Apple Silicon

AgentSelect: Benchmark für narrative Agentenempfehlungen

Mathematische Modelle: Erfolgreich, aber instabil – Das Tiefe‑Genauigkeit-Paradox

🍪 Cookie-Einstellungen

Neue Methode steigert Genauigkeit strukturierter LLM-Ausgaben um bis zu 24 %