Suche nach HORIZON | meineki.news

HORIZON‑Benchmark enthüllt Schwachstellen von LLM‑Agenten bei langen Aufgaben

Ein neues Forschungsprojekt namens HORIZON liefert erstmals ein systematisches Diagnose-Tool für die Analyse von Fehlern in großen Sprachmo…

arXiv – cs.AI 15.04.2026 04:00

Forschung

LLM-Agenten meistern Tool-Umgebungen dank Entropie-gesteuerter Suche

Die neuesten Fortschritte bei großen Sprachmodellen (LLMs) haben die Entwicklung von tool-gestützten Agenten stark vorangetrieben. Trotz di…

arXiv – cs.AI 15.04.2026 04:00

Forschung

FinTrace: Benchmark für LLM-Tool-Calls in Finanz – 800 Trajektorien, 34 Kategorien

FinTrace, ein neues Benchmark, richtet sich an die Bewertung von Large Language Models (LLMs) beim Tool‑Calling in komplexen Finanzaufgaben…

arXiv – cs.AI 14.04.2026 04:00

Forschung

Graph-RHO: Neuer Ansatz für langfristige Flexible Job-Shop-Planung

Die Planung von Fertigungsaufträgen über lange Zeiträume – das sogenannte Long‑Horizon Flexible Job‑Shop Scheduling (FJSP) – stellt ein eno…

arXiv – cs.LG 14.04.2026 04:00

Forschung

SPPO: Neue Methode für effiziente Langzeit-Logik in Sprachmodellen

Proximal Policy Optimization (PPO) ist ein zentrales Werkzeug, um große Sprachmodelle (LLMs) in Aufgaben des logischen Denkens mit überprüf…

arXiv – cs.AI 13.04.2026 04:00

Forschung

Neue Diffusionsmethode steigert Effizienz von modellbasiertem Reinforcement Learning

In der Welt des modellbasierten Reinforcement Learning (MBRL) haben autoregressive Weltmodelle lange Zeit mit kumulativen Fehlern zu kämpfe…

arXiv – cs.AI 13.04.2026 04:00

Forschung

LLMs im realen Verhaltenstest: Benchmark für lange Zeiträume und Szenarien

Die rasante Entwicklung großer Sprachmodelle (LLMs) hat das Potenzial eröffnet, einen universellen Benutzersimulator zu schaffen. Trotz die…

arXiv – cs.AI 13.04.2026 04:00

Forschung

AE-ViT: Stabilisiertes Langzeit-Parametrisches PDE-Modellieren

Ein brandneuer Deep‑Learning‑Ansatz für parametrisierte partielle Differentialgleichungen (PDEs) wurde auf arXiv veröffentlicht. Das Modell…

arXiv – cs.LG 09.04.2026 04:00

Forschung

Neues Scaling-Modell für Wettervorhersage: Analyse von Spatiotemporalen Daten

Wissenschaftler haben ein neues Scaling-Modell für Wettervorhersagen vorgestellt, das die komplexen Anforderungen der spatiotemporalen Date…

arXiv – cs.LG 08.04.2026 04:00

Forschung

Neuro-Symbolisches Dual-Memory-Framework verbessert Langzeit-LLM-Agenten

Große Sprachmodelle (LLMs) zeigen großes Potenzial bei Aufgaben mit langen Entscheidungswegen, etwa bei physischer Manipulation oder Webint…

arXiv – cs.AI 06.04.2026 04:00

Forschung

MATA-Former: Semantische Zeitausrichtung verbessert ICU‑Risikoabschätzung

Ein neues KI-Modell namens MATA‑Former (Medical‑Semantics Aware Time‑ALiBi Transformer) verspricht, die Vorhersage klinischer Risiken in de…

arXiv – cs.LG 03.04.2026 04:00

Forschung

KI‑optimiertes Multi‑Resolution‑Framework schließt Energiesystem‑Leistungslücken

Die Planung verlässlicher, integrierter Energiesysteme für industrielle Prozesse erfordert Optimierungs‑ und Verifikationsmodelle in mehrer…

arXiv – cs.LG 03.04.2026 04:00

Praxis

Arcee AI stellt Trinity Large Thinking vor – Modell für komplexes Denken

Arcee AI hat mit der Veröffentlichung von Trinity Large Thinking einen wichtigen Meilenstein gesetzt: Das neue Modell ist ein Open-Weight‑R…

MarkTechPost 02.04.2026 23:56

Forschung

Soft MPCritic: Amortisierte Modellprädiktive Wertiteration

Ein neues Forschungsprojekt aus dem Bereich der künstlichen Intelligenz kombiniert die Stärken von Reinforcement Learning (RL) und Model Pr…

arXiv – cs.LG 03.04.2026 04:00

Forschung

Neues latentes Recurrent-Modell verbessert langfristige Sequenzverarbeitung

Wissenschaftler haben ein innovatives Modell vorgestellt, das die Verarbeitung langer Sequenzen revolutioniert. Durch die Kombination schne…

arXiv – cs.LG 03.04.2026 04:00

Forschung

Neue Messkriterien für Zuverlässigkeit langer LLM-Agenten

Aktuelle Benchmarks bewerten vor allem die Fähigkeit eines Modells, bei einer einzigen Ausführung erfolgreich zu sein. In produktiven Umgeb…

arXiv – cs.AI 01.04.2026 04:00

Forschung

Transformer‑Netzwerke prognostizieren Anfälle mit über 90 % Genauigkeit

Ein neu entwickeltes, patientenadaptives Transformer‑Framework verspricht die bisher schwierig zu lösende Aufgabe der epileptischen Anfalls…

arXiv – cs.LG 31.03.2026 04:00

Forschung

Spektral- und Zeitreihenfusion verbessert Rohstoffpreisprognosen

Ein neues Verfahren namens Spectrogram-Enhanced Multimodal Fusion (SEMF) verspricht, die Vorhersage von Rohstoffpreisen deutlich zu verbess…

arXiv – cs.LG 31.03.2026 04:00

Forschung

On-Policy Distillation neu bewertet: Fehlerquellen erkannt, Lösungen entwickelt

On‑Policy Distillation (OPD) gilt als vielversprechende Methode für die Nachschulung großer Sprachmodelle, weil sie das Feedback des Lehrer…

arXiv – cs.LG 27.03.2026 04:00

Forschung

Reinforcement Learning verbessert lebenslange Multi-Agenten-Routenplanung in Lagerhäusern

In modernen Lagerhäusern müssen zahlreiche Roboter kontinuierlich Konfliktfrei navigieren, um die Gesamteffizienz zu maximieren. Das lebens…

arXiv – cs.AI 26.03.2026 04:00

Forschung

DeepXube: Open-Source-Tool löst Pfadfindungsprobleme mit ML-Heuristiken

DeepXube ist ein völlig kostenloses und quelloffenes Python-Paket, das über eine komfortable Befehlszeilenschnittstelle die Lösung von Pfad…

arXiv – cs.AI 26.03.2026 04:00

Forschung

Environment Maps: Strukturierte Umweltmodelle für Agenten mit langen Zielsetzungen

Obwohl große Sprachmodelle (LLMs) rasch Fortschritte machen, bleibt die robuste Automatisierung komplexer Software‑Workflows ein offenes Pr…

arXiv – cs.AI 26.03.2026 04:00

Forschung

Neuer Algorithmus liefert optimale varianzabhängige Regret-Bound für MDPs

Online‑Reinforcement‑Learning in unendlichen Markov‑Entscheidungsprozessen (MDPs) ist bislang weniger theoretisch und algorithmisch ausgear…

arXiv – cs.LG 26.03.2026 04:00

Forschung

Neues 3D‑Vision‑Language-Modell löst komplexe Box‑Umarrangements in Echtzeit

Forscher haben ein neues System namens RAMP‑3D entwickelt, das natürliche Sprachziele in 3D‑Umgebungen umsetzt, ohne auf symbolische Planer…

arXiv – cs.AI 26.03.2026 04:00

Forschung

Neues Modell für in‑Kontext‑Zeitreihen: Vorhersagen ohne Feinabstimmung

Ein neues, auf Quantile‑Regression basierendes T5‑Encoder‑Decoder-Modell eröffnet die Möglichkeit, Zeitreihenvorhersagen und verwandte Aufg…

arXiv – cs.LG 25.03.2026 04:00

Forschung

LH-Bench: Neue Benchmark für subjektive Unternehmensaufgaben

Während große Sprachmodelle bei klar definierten Aufgaben wie Mathematik oder Programmieren glänzen, sind echte Unternehmensaufgaben oft su…

arXiv – cs.AI 25.03.2026 04:00

Forschung

Neues Framework steigert Langzeitplanung von LLM-Agenten um 10 %

In der Welt der künstlichen Intelligenz haben sich große Sprachmodelle (LLMs) zu leistungsstarken autonomen Agenten entwickelt, die digital…

arXiv – cs.AI 23.03.2026 04:00

Forschung

ReLaMix: Latenzresistente Finanzprognosen mit Residual‑Mixing

In der hochfrequenten Finanzwelt sind Prognosen oft durch verzögerte oder teilweise veraltete Daten erschwert, die durch asynchronen Datene…

arXiv – cs.AI 24.03.2026 04:00

Forschung

Tula: Zeit, Kosten und Generalisierung beim verteilten Training großer Batches

In der Welt des Deep Learning hat sich das verteilte Training als Schlüsseltechnologie etabliert, um die Verarbeitung großer Datenmengen zu…

arXiv – cs.LG 20.03.2026 04:00

Forschung

MLOW: Low-Rank Frequency Decomposition steigert Zeitreihenprognosen

Ein neues Verfahren namens MLOW (Interpretable Low‑Rank Frequency Magnitude Decomposition) verspricht, die Genauigkeit von Zeitreihenprogno…

arXiv – cs.LG 20.03.2026 04:00

Finde Modelle, Firmen und Themen

HORIZON‑Benchmark enthüllt Schwachstellen von LLM‑Agenten bei langen Aufgaben

LLM-Agenten meistern Tool-Umgebungen dank Entropie-gesteuerter Suche

FinTrace: Benchmark für LLM-Tool-Calls in Finanz – 800 Trajektorien, 34 Kategorien

Graph-RHO: Neuer Ansatz für langfristige Flexible Job-Shop-Planung

SPPO: Neue Methode für effiziente Langzeit-Logik in Sprachmodellen

Neue Diffusionsmethode steigert Effizienz von modellbasiertem Reinforcement Learning

LLMs im realen Verhaltenstest: Benchmark für lange Zeiträume und Szenarien

AE-ViT: Stabilisiertes Langzeit-Parametrisches PDE-Modellieren

Neues Scaling-Modell für Wettervorhersage: Analyse von Spatiotemporalen Daten

Neuro-Symbolisches Dual-Memory-Framework verbessert Langzeit-LLM-Agenten

MATA-Former: Semantische Zeitausrichtung verbessert ICU‑Risikoabschätzung

KI‑optimiertes Multi‑Resolution‑Framework schließt Energiesystem‑Leistungslücken

Arcee AI stellt Trinity Large Thinking vor – Modell für komplexes Denken

Soft MPCritic: Amortisierte Modellprädiktive Wertiteration

Neues latentes Recurrent-Modell verbessert langfristige Sequenzverarbeitung

Neue Messkriterien für Zuverlässigkeit langer LLM-Agenten

Transformer‑Netzwerke prognostizieren Anfälle mit über 90 % Genauigkeit

Spektral- und Zeitreihenfusion verbessert Rohstoffpreisprognosen

On-Policy Distillation neu bewertet: Fehlerquellen erkannt, Lösungen entwickelt

Reinforcement Learning verbessert lebenslange Multi-Agenten-Routenplanung in Lagerhäusern

DeepXube: Open-Source-Tool löst Pfadfindungsprobleme mit ML-Heuristiken

Environment Maps: Strukturierte Umweltmodelle für Agenten mit langen Zielsetzungen

Neuer Algorithmus liefert optimale varianzabhängige Regret-Bound für MDPs

Neues 3D‑Vision‑Language-Modell löst komplexe Box‑Umarrangements in Echtzeit

Neues Modell für in‑Kontext‑Zeitreihen: Vorhersagen ohne Feinabstimmung

LH-Bench: Neue Benchmark für subjektive Unternehmensaufgaben

Neues Framework steigert Langzeitplanung von LLM-Agenten um 10 %

ReLaMix: Latenzresistente Finanzprognosen mit Residual‑Mixing

Tula: Zeit, Kosten und Generalisierung beim verteilten Training großer Batches

MLOW: Low-Rank Frequency Decomposition steigert Zeitreihenprognosen

🍪 Cookie-Einstellungen

Transformer‑Netzwerke prognostizieren Anfälle mit über 90 % Genauigkeit

Neues Framework steigert Langzeitplanung von LLM-Agenten um 10 %