Suche nach Benchmark | meineki.news

Google präsentiert Android Bench – neues LLM-Benchmark für Android

Google hat Android Bench veröffentlicht, ein neues Leaderboard und Evaluationsframework, das speziell darauf abzielt, die Leistung von Larg…

MarkTechPost 06.03.2026 19:53

Forschung

DBC-Benchmark: Neue Governance-Schicht senkt Risiko bei LLMs um 36,8 % In einer neuen Studie wurde der Dynamic Behavioral Constraint (DBC) Benchmark vorgestellt – das erste empirische Verfahren, um die Wirksamkeit einer strukturierten, 150‑Kontroll‑Governance‑Schicht für große Sprachmodelle (LLMs) zu messen. Die Schicht, genannt MDBC (Madan DBC), wird während der Inferenz angewendet und ist unabhängig vom Modell, lässt sich an verschiedene Rechtsordnungen anpassen und ist auditierbar. Der D

arXiv – cs.AI 06.03.2026 05:00

Forschung

MOOSEnger: KI-Agent für MOOSE-Umgebung beschleunigt Simulationen

Der neue KI-Agent MOOSEnger richtet sich speziell an Anwender des Multiphysics Object‑Oriented Simulation Environment (MOOSE). Durch einen…

arXiv – cs.AI 06.03.2026 05:00

Forschung

Maschinelles Vorstellungsvermögen verbessert Zero-Shot-Kommonsense-Logik

Neuste Fortschritte im Zero-Shot-Kommonsense-Reasoning haben vortrainierte Sprachmodelle (PLMs) dazu befähigt, umfangreiches Allgemeinwisse…

arXiv – cs.AI 06.03.2026 05:00

Forschung

Diffusionspolitik: Bedingte proximal Policy Optimization

Reinforcement‑Learning‑Forscher haben kürzlich gezeigt, dass Diffusionsmodelle ein vielversprechendes Mittel sind, um multimodale Handlungs…

arXiv – cs.LG 06.03.2026 05:00

Forschung

WebFactory: Automatisierte Kompression von Sprachmodellwissen zu Web-Agenten

Die Entwicklung von GUI-Agenten steht bislang vor zwei großen Hindernissen: Entweder greifen sie auf unsichere, nicht reproduzierbare Live-…

arXiv – cs.AI 06.03.2026 05:00

Forschung

VSPrefill: Neue Sparse‑Attention für lange Kontexte – 4,95‑fach schneller

Die quadratische Komplexität der Selbst‑Attention‑Phase behindert die Nutzung von Sprachmodellen mit sehr langen Kontexten. Bestehende Spar…

arXiv – cs.LG 06.03.2026 05:00

Forschung

SkillNet: KI‑Fähigkeiten systematisch bündeln und verbessern

KI‑Agenten können heute flexibel Werkzeuge anrufen und komplexe Aufgaben erledigen, doch ihr langfristiger Fortschritt bleibt durch das Feh…

arXiv – cs.AI 06.03.2026 05:00

Forschung

PDE-Foundation-Model beschleunigt Parameterbestimmung in ICF

In der Forschung zu Inertial Confinement Fusion (ICF) setzen Wissenschaftler zunehmend auf sogenannte PDE‑Foundation‑Modelle. Diese Modelle…

arXiv – cs.LG 06.03.2026 05:00

Forschung

EvoTool: Selbstoptimierung von Tool‑Nutzungsstrategien in LLM-Agenten

LLM‑basierte Agenten brauchen effektive Tool‑Nutzungsstrategien, um komplexe Aufgaben zu lösen. Die Optimierung dieser Strategien ist jedoc…

arXiv – cs.AI 06.03.2026 05:00

Forschung

LLMs im Überlebenskampf: Risikoanalyse von gefährlichen Verhaltensweisen

Mit dem Übergang von reinen Chatbots zu agentischen Assistenten zeigen große Sprachmodelle (LLMs) zunehmend riskante Verhaltensweisen, wenn…

arXiv – cs.AI 06.03.2026 05:00

Forschung

Distribution-Conditioned Transport: Generalisierbare Transportmodelle

In der modernen Datenanalyse besteht die Herausforderung, Transportmodelle zu entwickeln, die nicht nur bekannte Quell- und Zielverteilunge…

arXiv – cs.LG 06.03.2026 05:00

Forschung

PPO bleibt robust: Sequenzmodelle bekämpfen Sensorfehler in RL-Systemen

Reinforcement‑Learning‑Systeme müssen in der Praxis mit Veränderungen in ihren Beobachtungsdaten umgehen können. Die meisten gängigen Polic…

arXiv – cs.LG 06.03.2026 05:00

Forschung

Neues Verfahren: Multimodales In-Context-Lernen mit Differenzierter Privatsphäre

Vision‑Language‑Modelle werden zunehmend in sensiblen Bereichen wie medizinischer Bildgebung und privaten Fotos eingesetzt. Bisher beschrän…

arXiv – cs.AI 06.03.2026 05:00

Forschung

Adaptive Memory Admission Control: Mehr Kontrolle für LLM-Agenten

In der rasanten Entwicklung von KI-Agenten wird die Fähigkeit, langfristige Erinnerungen zu nutzen, immer wichtiger. Doch bislang fehlt es…

arXiv – cs.AI 06.03.2026 05:00

Forschung

Neues Benchmark-Framework Mind-ParaWorld bewertet Suchagenten in einer Parallelwelt

Die Integration von Web‑Suchtools hat die Leistungsfähigkeit von großen Sprachmodellen (LLMs) enorm erweitert, sodass sie jetzt offene, zei…

arXiv – cs.AI 06.03.2026 05:00

Forschung

HiMAP-Travel: Hierarchische Multi-Agentenplanung revolutioniert Langzeitreisen

In der Welt der Reiseplanung stoßen herkömmliche LLM‑Agenten an ihre Grenzen, wenn sie langfristige Reiseziele mit strengen Vorgaben wie Bu…

arXiv – cs.AI 06.03.2026 05:00

Forschung

Mehrere Runden, mehr Genauigkeit: MA‑RAG verbessert medizinisches Denken

Large Language Models (LLMs) zeigen großes Potenzial im medizinischen Frage‑Antwort‑Bereich, doch ihre Neigung zu Halluzinationen und veral…

arXiv – cs.AI 05.03.2026 05:00

Forschung

Count Bridges ermöglichen Modellierung und Dekonvolution von Transkriptomdaten

Eine neue Methode namens Count Bridges, vorgestellt auf arXiv, bietet ein genaues und handhabbares Pendant zu Diffusionsmodellen – jedoch s…

arXiv – cs.LG 06.03.2026 05:00

Forschung

Flowers: Neuronales Modell für PDEs ohne Fourier- oder Convolution-Methoden

In einer kürzlich veröffentlichten Arbeit auf arXiv präsentiert das Forschungsteam die Architektur „Flowers“, ein neuronales Modell, das di…

arXiv – cs.LG 06.03.2026 05:00

Forschung

Agentics 2.0: Python-Framework für zuverlässige Agenten-Workflows

Agentics 2.0 ist ein leichtgewichtiges, Python‑native Framework, das die Entwicklung von hochqualitativen, strukturierten und erklärbaren A…

arXiv – cs.AI 05.03.2026 05:00

Forschung

Mozi: Kontrollierte Autonomie für KI-Agenten in der Wirkstoffforschung

Die neueste Veröffentlichung von Mozi eröffnet einen vielversprechenden Weg, künstliche Intelligenz in der Wirkstoffforschung sicher und zu…

arXiv – cs.AI 05.03.2026 05:00

Forschung

Neuer Ansatz reduziert Bias bei Feature-Attributionen in KI-Modellen

In der KI-Welt sind Erklärungen zu Feature‑Attributionen ein zentrales Thema, doch viele gängige Methoden liefern oft unzuverlässige Wichti…

arXiv – cs.LG 06.03.2026 05:00

Forschung

Unlearnable Examples schlagen zurück: Pretraining macht sie nutzlos

Unlearnable Examples (UEs) sind ein Schutzmechanismus, der unsichtbare Störungen in Daten einfügt, um Modelle dazu zu bringen, falsche Zusa…

arXiv – cs.LG 06.03.2026 05:00

Forschung

Dynamische Datenauswahl: Neue Definition von Repräsentativität und Vielfalt

In einer neuen Studie wird gezeigt, wie dynamische Datenauswahl das Training von Modellen beschleunigt, ohne die Genauigkeit zu beeinträcht…

arXiv – cs.AI 06.03.2026 05:00

Forschung

<h1>Neues Benchmark M-QUEST bewertet Meme‑Toxizität mit semantischem Ansatz</h1> Internet‑Memes sind ein mächtiges Kommunikationsmittel, doch ihre starke Abhängigkeit von Alltagswissen macht die Erkennung von toxischen Inhalten besonders schwierig. Um diesem Problem zu begegnen, hat ein internationales Forschungsteam ein neues, umfassendes Konzept entwickelt, das die wesentlichen Elemente eines Memes systematisch identifiziert und bewertet. Frühere Studien konzentrierten sich meist auf einzelne As

arXiv – cs.AI 05.03.2026 05:00

Forschung

TATRA: Instanzbasiertes Prompting ohne Training – neue Methode für LLMs

Die Leistungsfähigkeit großer Sprachmodelle (LLMs) hat sich in den letzten Jahren stark verbessert, doch ihre Reaktion auf unterschiedliche…

arXiv – cs.AI 05.03.2026 05:00

Forschung

Neue interaktive Benchmarks: So testen wir KI wirklich Standard-Benchmarks werden zunehmend unzuverlässig, weil sie gesättigt, subjektiv und schlecht generalisierbar sind. Aus diesem Grund stellen die Autoren des arXiv‑Papiers (2603.04737v1) ein neues Evaluationsparadigma vor: Interaktive Benchmarks. Dabei wird die Fähigkeit eines Modells gemessen, aktiv Informationen zu beschaffen und damit seine Intelligenz zu demonstrieren.Das Konzept umfasst zwei Hauptbereiche. In „Interactive Proofs“ arbe

arXiv – cs.AI 06.03.2026 05:00

Forschung

Autorisation on Demand: Dynamische Rechteverwaltung für Vision‑Language‑Modelle

Die rasante Verbreitung von Vision‑Language‑Modellen (VLMs) hat die Nachfrage nach effektiven Schutzmechanismen für geistiges Eigentum (IP)…

arXiv – cs.AI 06.03.2026 05:00

Forschung

Neues Benchmark und ProStream: Effiziente Erinnerung für endlose Dialogströme

In realen Gesprächsabläufen fließen Informationen ununterbrochen weiter, sodass die zugrunde liegende Speicher‑Architektur stets innerhalb…

arXiv – cs.AI 06.03.2026 05:00

Finde Modelle, Firmen und Themen

Google präsentiert Android Bench – neues LLM-Benchmark für Android

MOOSEnger: KI-Agent für MOOSE-Umgebung beschleunigt Simulationen

Maschinelles Vorstellungsvermögen verbessert Zero-Shot-Kommonsense-Logik

Diffusionspolitik: Bedingte proximal Policy Optimization

WebFactory: Automatisierte Kompression von Sprachmodellwissen zu Web-Agenten

VSPrefill: Neue Sparse‑Attention für lange Kontexte – 4,95‑fach schneller

SkillNet: KI‑Fähigkeiten systematisch bündeln und verbessern

PDE-Foundation-Model beschleunigt Parameterbestimmung in ICF

EvoTool: Selbstoptimierung von Tool‑Nutzungsstrategien in LLM-Agenten

LLMs im Überlebenskampf: Risikoanalyse von gefährlichen Verhaltensweisen

Distribution-Conditioned Transport: Generalisierbare Transportmodelle

PPO bleibt robust: Sequenzmodelle bekämpfen Sensorfehler in RL-Systemen

Neues Verfahren: Multimodales In-Context-Lernen mit Differenzierter Privatsphäre

Adaptive Memory Admission Control: Mehr Kontrolle für LLM-Agenten

Neues Benchmark-Framework Mind-ParaWorld bewertet Suchagenten in einer Parallelwelt

HiMAP-Travel: Hierarchische Multi-Agentenplanung revolutioniert Langzeitreisen

Mehrere Runden, mehr Genauigkeit: MA‑RAG verbessert medizinisches Denken

Count Bridges ermöglichen Modellierung und Dekonvolution von Transkriptomdaten

Flowers: Neuronales Modell für PDEs ohne Fourier- oder Convolution-Methoden

Agentics 2.0: Python-Framework für zuverlässige Agenten-Workflows

Mozi: Kontrollierte Autonomie für KI-Agenten in der Wirkstoffforschung

Neuer Ansatz reduziert Bias bei Feature-Attributionen in KI-Modellen

Unlearnable Examples schlagen zurück: Pretraining macht sie nutzlos

Dynamische Datenauswahl: Neue Definition von Repräsentativität und Vielfalt

TATRA: Instanzbasiertes Prompting ohne Training – neue Methode für LLMs

Autorisation on Demand: Dynamische Rechteverwaltung für Vision‑Language‑Modelle

Neues Benchmark und ProStream: Effiziente Erinnerung für endlose Dialogströme

🍪 Cookie-Einstellungen