Suche nach Testen | meineki.news

AegisUI erkennt Verhaltensanomalien in UI-Protokollen von KI-Agenten

KI‑Agenten, die in Echtzeit Benutzeroberflächen aus strukturierten Protokolldaten zusammenbauen, werden immer häufiger in Produktionssystem…

arXiv – cs.AI 06.03.2026 05:00

Forschung

EVMbench: KI-Agenten testen Smart‑Contract‑Sicherheit

Ein neues arXiv‑Veröffentlichung (2603.04915v1) präsentiert EVMbench, ein umfassendes Testsystem, das die Fähigkeiten von KI-Agenten bei de…

arXiv – cs.LG 06.03.2026 05:00

Forschung

SOLID: Diffusionsmodell liefert präzise Vorhersagen bei spärlichen Messungen

Physikalische Felder, wie Temperaturverteilungen oder Luftfeuchte, werden häufig nur an wenigen, zeitlich variierenden Sensoren erfasst. Di…

arXiv – cs.LG 06.03.2026 05:00

Forschung

Neues RAG-Modell verbessert Vorhersage bei industriellen Druckventilen

Ein neues Retrieval‑Augmented Generation‑Framework, RAG4CTS, setzt neue Maßstäbe in der Vorhersage von Ausfällen bei industriellen Druckreg…

arXiv – cs.AI 06.03.2026 05:00

Forschung

<h1>LLM-Agenten erzeugen Propaganda – Wir testen Gegenmaßnahmen</h1> <p>In einer aktuellen arXiv‑Studie wird gezeigt, dass große Sprachmodelle (LLMs), die als Agenten in offenen Umgebungen eingesetzt werden, leicht manipulativ eingesetzt werden können. Die Forscher haben die Modelle gezielt mit Propagandazielen konfrontiert, um zu prüfen, wie stark sie in der Lage sind, manipulative Inhalte zu generieren.</p> <p>Zur Analyse der erzeugten Texte kamen zwei spezialisierte Modelle zum Einsatz: eines, das Texte

arXiv – cs.AI 06.03.2026 05:00

Forschung

TimeWarp: Web-Agenten gegen veränderte Web‑Designs testen

Die jüngste Veröffentlichung von TimeWarp stellt die Leistungsfähigkeit moderner Web‑Agenten auf die Probe, indem sie die sich ständig wand…

arXiv – cs.AI 06.03.2026 05:00

Forschung

Neue interaktive Benchmarks: So testen wir KI wirklich<br/><p>Standard-Benchmarks werden zunehmend unzuverlässig, weil sie gesättigt, subjektiv und schlecht generalisierbar sind. Aus diesem Grund stellen die Autoren des arXiv‑Papiers (2603.04737v1) ein neues Evaluationsparadigma vor: Interaktive Benchmarks. Dabei wird die Fähigkeit eines Modells gemessen, aktiv Informationen zu beschaffen und damit seine Intelligenz zu demonstrieren.</p><p>Das Konzept umfasst zwei Hauptbereiche. In „Interactive Proofs“ arbe

arXiv – cs.AI 06.03.2026 05:00

Forschung

KI entdeckt neues Wissen: Dynamisches Benchmark für biologische Forschung

Neuste Fortschritte bei Large Language Models (LLMs) zeigen, dass KI-Systeme erstaunliche Möglichkeiten im automatischen Wissensentdecken b…

arXiv – cs.AI 05.03.2026 05:00

Forschung

SEA-TS: Selbstlernender Agent revolutioniert Zeitreihenprognosen

Ein neues Forschungsprojekt namens SEA-TS (Self‑Evolving Agent for Time Series Algorithms) hat die Art und Weise, wie Zeitreihenprognosen e…

arXiv – cs.AI 06.03.2026 05:00

Forschung

TTSR: Selbstreflexion im Testzeitraum für kontinuierliche Verbesserungen der Logik

Ein neues Verfahren namens TTSR (Test‑Time Self‑Reflection) ermöglicht es großen Sprachmodellen, ihre Rechenfähigkeiten während des Testens…

arXiv – cs.AI 05.03.2026 05:00

Forschung

τ-Knowledge: Neue Benchmark für Konversationsagenten mit unstrukturiertem Wissen In der Welt der KI‑Assistenten gewinnt die Fähigkeit, in Echtzeit auf umfangreiches, proprietäres und unstrukturiertes Wissen zuzugreifen, zunehmend an Bedeutung. Das neue Benchmark‑Set τ-Knowledge erweitert die bereits etablierte τ‑Bench-Plattform, um Agenten in realistischen, langanhaltenden Interaktionen zu testen, bei denen das korrekte Abrufen und Anwenden von Fachwissen entscheidend ist. Der Testbereich τ-Banking

arXiv – cs.AI 05.03.2026 05:00

Praxis

LangWatch liefert Open-Source-Lösung für Evaluierung von KI-Agenten

Mit dem Übergang von einfachen Chat‑Interfaces zu komplexen, mehrstufigen autonomen Agenten steht die KI‑Industrie vor einem entscheidenden…

MarkTechPost 04.03.2026 18:36

Forschung

Neues Paper: Adversariale Angriffe durch exponentielle Dimensionalitätsdeviance

In einer kürzlich veröffentlichten Studie auf arXiv (2603.03507v1) wird ein neues Konzept vorgestellt, das die Ursache für die anhaltende P…

arXiv – cs.LG 05.03.2026 05:00

Forschung

Neues ERI-Benchmark: 57.750 Aufgaben für Ingenieur-LLMs

Ein brandneues Benchmark-Dataset namens Engineering Reasoning and Instruction (ERI) wurde veröffentlicht, das speziell dafür entwickelt wur…

arXiv – cs.AI 04.03.2026 05:00

Forschung

SorryDB: KI-Prover testen echte Lean-Theoreme – neue dynamische Benchmark

Auf der Plattform arXiv wurde die neue Studie „SorryDB“ vorgestellt, die ein ständig aktualisiertes Benchmark für offene Lean-Aufgaben bere…

arXiv – cs.AI 04.03.2026 05:00

Forschung

LiveAgentBench: 104 reale Aufgaben testen KI-Agenten

Mit dem neuen Benchmark LiveAgentBench werden KI-Agenten unter realen Bedingungen geprüft. Die Plattform umfasst 104 Szenarien, die aus öff…

arXiv – cs.AI 04.03.2026 05:00

Aktuell

KI im Unternehmen: Vom Pilotprojekt zur Produktionsrealität

Die transformative Kraft der KI ist längst bewiesen. In Unternehmen gewinnen Anwendungsfälle an Dynamik, und Organisationen wandeln Pilotpr…

MIT Technology Review – Artificial Intelligence 04.03.2026 14:00

Forschung

Neues Framework zur reproduzierbaren Bewertung logischer Reasoning-Agenten

Ein neu entwickeltes Bewertungsframework ermöglicht die systematische und nachvollziehbare Prüfung von logischen Reasoning-Agenten. Es legt…

arXiv – cs.AI 04.03.2026 05:00

Forschung

CoPeP: Benchmark für kontinuierliches Vortraining von Protein‑Sprachmodellen

Protein‑Sprachmodelle (pLMs) haben die Forschung im Bereich der Wirkstoffentwicklung neu definiert, indem sie aus großen, ständig aktualisi…

arXiv – cs.LG 03.03.2026 05:00

Praxis

Alibaba veröffentlicht CoPaw: Hochleistungs-Workstation für autonome Agenten

Die KI-Branche hat den Fokus von einfachen LLM‑Inference auf autonome Agentensysteme verlagert. Dabei ist nicht mehr das Modell selbst ents…

MarkTechPost 01.03.2026 10:03

Aktuell

Goldman Sachs und Deutsche Bank testen agentische KI zur Handelssurveillance

In einer wegweisenden Initiative setzen die beiden Finanzgiganten auf eine neue Generation von künstlicher Intelligenz, die weit über das r…

AI News (TechForge) 27.02.2026 10:00

Forschung

ConstraintBench: LLMs testen direkte Optimierung – Ergebnis: 65 % Konformität

In der Welt der großen Sprachmodelle (LLMs) gewinnt die direkte Lösung von Optimierungsproblemen ohne Hilfsmittel eines Solver-Programms zu…

arXiv – cs.AI 27.02.2026 05:00

Produkt

Reinforcement Fine‑Tuning für Amazon Nova: KI durch Feedback verbessern

Amazon Nova setzt mit Verstärkendem Feintuning (RFT) neue Maßstäbe in der KI-Anpassung. Im Gegensatz zum klassischen überwachten Lernen ler…

AWS – Machine Learning Blog 26.02.2026 17:48

Praxis

Microsoft Research stellt CORPGEN vor: KI-Agenten für komplexe Aufgaben

Microsoft Research hat CORPGEN vorgestellt, ein architekturunabhängiges Framework, das autonome digitale Mitarbeiter in die Lage versetzt…

MarkTechPost 27.02.2026 00:32

Forschung

MobilityBench: Benchmark für LLM-basierte Routenplanung in realen Szenarien

In der Mobilitätsforschung hat sich ein neues Paradigma etabliert: Route‑Planning‑Agenten, die auf großen Sprachmodellen (LLMs) basieren, e…

arXiv – cs.AI 27.02.2026 05:00

Aktuell

Nano Banana 2 (Gemini 3.1) – Das neue SOTA-Imagegen-Modell ist da

Gemini 3.1, auch als Nano Banana 2 bezeichnet, ist das neueste Bildgenerierungsmodell der aktuellen Generation. Das Modell setzt neue Maßst…

Latent Space 27.02.2026 04:39

Aktuell

Pentagon vs. Anthropic: Konflikt, TAT‑8 und Unterseekabel im Fokus

In der aktuellen Ausgabe nehmen die Moderatoren die Schlagzeilen der Woche unter die Lupe. Der erste Schwerpunkt liegt auf dem anhaltenden…

Wired – AI (Latest) 26.02.2026 23:20

Forschung

Entropie-adaptives Modell-Merging: Neue Methode für medizinische Bildgebung

In der medizinischen Bildgebung, wo Modelle lokal an einzelnen Kliniken auf privaten Daten feinabgestimmt werden, stellen unerwartete Testz…

arXiv – cs.AI 26.02.2026 05:00

Aktuell

Nokia und AWS testen KI-gesteuerte Echtzeit-Netzwerk-Slicing für 5G

Telekommunikationsnetzwerke könnten bald in Echtzeit ihre Ressourcen selbstständig anpassen, weil Betreiber Systeme testen, die KI-Agenten…

AI News (TechForge) 25.02.2026 10:00

Forschung

LogicGraph: Benchmark für Mehrweg‑logisches Denken mit neuro‑symbolischer Analyse

In der Welt der großen Sprachmodelle (LLMs) liegt der Fokus bislang vor allem auf konvergenter Logik: Modelle sollen einen einzigen, korrek…

arXiv – cs.AI 25.02.2026 05:00

Finde Modelle, Firmen und Themen

AegisUI erkennt Verhaltensanomalien in UI-Protokollen von KI-Agenten

EVMbench: KI-Agenten testen Smart‑Contract‑Sicherheit

SOLID: Diffusionsmodell liefert präzise Vorhersagen bei spärlichen Messungen

Neues RAG-Modell verbessert Vorhersage bei industriellen Druckventilen

TimeWarp: Web-Agenten gegen veränderte Web‑Designs testen

KI entdeckt neues Wissen: Dynamisches Benchmark für biologische Forschung

SEA-TS: Selbstlernender Agent revolutioniert Zeitreihenprognosen

TTSR: Selbstreflexion im Testzeitraum für kontinuierliche Verbesserungen der Logik

LangWatch liefert Open-Source-Lösung für Evaluierung von KI-Agenten

Neues Paper: Adversariale Angriffe durch exponentielle Dimensionalitätsdeviance

Neues ERI-Benchmark: 57.750 Aufgaben für Ingenieur-LLMs

SorryDB: KI-Prover testen echte Lean-Theoreme – neue dynamische Benchmark

LiveAgentBench: 104 reale Aufgaben testen KI-Agenten

KI im Unternehmen: Vom Pilotprojekt zur Produktionsrealität

Neues Framework zur reproduzierbaren Bewertung logischer Reasoning-Agenten

CoPeP: Benchmark für kontinuierliches Vortraining von Protein‑Sprachmodellen

Alibaba veröffentlicht CoPaw: Hochleistungs-Workstation für autonome Agenten

Goldman Sachs und Deutsche Bank testen agentische KI zur Handelssurveillance

ConstraintBench: LLMs testen direkte Optimierung – Ergebnis: 65 % Konformität

Reinforcement Fine‑Tuning für Amazon Nova: KI durch Feedback verbessern

Microsoft Research stellt CORPGEN vor: KI-Agenten für komplexe Aufgaben

MobilityBench: Benchmark für LLM-basierte Routenplanung in realen Szenarien

Nano Banana 2 (Gemini 3.1) – Das neue SOTA-Imagegen-Modell ist da

Pentagon vs. Anthropic: Konflikt, TAT‑8 und Unterseekabel im Fokus

Entropie-adaptives Modell-Merging: Neue Methode für medizinische Bildgebung

Nokia und AWS testen KI-gesteuerte Echtzeit-Netzwerk-Slicing für 5G

LogicGraph: Benchmark für Mehrweg‑logisches Denken mit neuro‑symbolischer Analyse

🍪 Cookie-Einstellungen

ConstraintBench: LLMs testen direkte Optimierung – Ergebnis: 65 % Konformität