Suche nach Politik | meineki.news

Diffusionspolitik: Bedingte proximal Policy Optimization

Reinforcement‑Learning‑Forscher haben kürzlich gezeigt, dass Diffusionsmodelle ein vielversprechendes Mittel sind, um multimodale Handlungs…

arXiv – cs.LG 06.03.2026 05:00

Forschung

Invariant Causal Routing: Neue Steuerung sozialer Normen online

In Online-Marktökonomien entstehen soziale Normen – wie faire Sichtbarkeit, kontinuierliche Teilnahme und ausgewogene Reinvestition – durch…

arXiv – cs.LG 06.03.2026 05:00

Forschung

Neue Bewertungsmethode deckt versteckte Fehler bei KI-Agenten auf

In hochriskanten Einsatzbereichen werden KI‑Agenten, die auf großen Sprachmodellen (LLMs) basieren, immer häufiger eingesetzt. Bisher messe…

arXiv – cs.AI 04.03.2026 05:00

Forschung

Effiziente Q-Measure-Learning-Methodik für kontinuierliche Zustände in RL

In einer neuen Veröffentlichung auf arXiv wird ein innovativer Ansatz für Reinforcement Learning in Markov-Entscheidungsprozessen mit konti…

arXiv – cs.LG 05.03.2026 05:00

Forschung

Ohne Belohnungen: Beobachter lernen optimale Politik aus Aktionen

In der neuen Studie zum Inverse Contextual Bandit (ICB) wird untersucht, wie ein Beobachter ohne Zugriff auf Belohnungen die zugrunde liege…

arXiv – cs.LG 05.03.2026 05:00

Forschung

Neues Multi-Agent-Modell nutzt LLMs zur Analyse von affektiver Polarisierung

Die affektive Polarisierung, ein zentrales Thema in Politik- und Sozialforschung, wird in den sozialen Medien immer stärker ausgeprägt. Tra…

arXiv – cs.AI 04.03.2026 05:00

Forschung

COOL-MC: RL-Strategien für Thrombozytenlagerung verifizieren und erklären

Thrombozyten verfallen innerhalb von fünf Tagen – ein kurzer Zeitrahmen, der Blutbanken vor die Herausforderung stellt, täglich unvorherseh…

arXiv – cs.AI 04.03.2026 05:00

Forschung

HiMAC: Hierarchisches Lernen für LLM-Agenten in Langzeitaufgaben

In einer neuen Veröffentlichung auf arXiv präsentiert HiMAC ein innovatives, hierarchisches Lernframework, das Large Language Model (LLM)-A…

arXiv – cs.AI 03.03.2026 05:00

Forschung

Neue Auswahltheoreme beweisen: Vorhersagefähige Zustände sind Agenten unerlässlich

In einer kürzlich veröffentlichten Arbeit auf arXiv werden neue Auswahltheoreme vorgestellt, die zeigen, dass künstliche Agenten, die unter…

arXiv – cs.LG 04.03.2026 05:00

Forschung

Meta‑RL nutzt Symmetrie: Geometrische Methode ermöglicht globale Generalisierung

Meta‑Reinforcement‑Learning (Meta‑RL) generalisiert bislang meist über die Glattheit der Aufgabenkodierung. Diese Strategie erfordert eine…

arXiv – cs.LG 03.03.2026 05:00

Forschung

Neues Training für MoE-Modelle: Experten lernen sich zu spezialisieren

Die Mixture-of-Experts (MoE)-Architektur gilt als Schlüsseltechnologie für die Skalierung großer Sprachmodelle, leidet jedoch häufig unter…

arXiv – cs.LG 03.03.2026 05:00

Forschung

<p>Offline-Reinforcement-Learning kann durch eine pessimistische Hilfspolitik deutlich effizienter werden.</p> <p>Beim Offline‑RL lernt ein Agent aus vorab gesammelten Daten, ohne dabei in Echtzeit zu handeln. Dieses Vorgehen vermeidet gefährliche oder ineffiziente Interaktionen, bringt jedoch ein Problem mit sich: Während des Lernens werden häufig Aktionen gewählt, die außerhalb des Trainingsdatensatzes liegen. Diese „Out‑of‑Distribution“-Aktionen führen zu Annäherungsfehlern, die sich akkumulieren und die

arXiv – cs.AI 02.03.2026 05:00

Forschung

Sicherheitsorientiertes Q‑Learning: Expertenbeispiele bei unbekannten Beschränkungen In einer neuen Studie aus dem Bereich der künstlichen Intelligenz wird gezeigt, wie Agenten aus sicheren Demonstrationen lernen können, selbst in Umgebungen mit unbekannten Beschränkungen zu agieren. Das Ziel ist es, eine Politik zu entwickeln, die die Wahrscheinlichkeit von sicheren, aber gleichzeitig lohnenden Handlungen maximiert. Der Ansatz, der als SafeQIL (Sicheres Q‑Inverse Konstrahiertes Verstärkungslernen) bezeic

arXiv – cs.LG 02.03.2026 05:00

Forschung

Neue Methode distilliert RL-optimierte LLMs effizienter

Reinforcement‑Learning‑Post‑Training hat kürzlich große Fortschritte bei der langen Ketten‑von‑Denken‑Logik von großen Sprachmodellen erzie…

arXiv – cs.LG 27.02.2026 05:00

Forschung

Bleib stark, Anthropic – Unterstütze die KI-Entwickler!

Unabhängig von den unterschiedlichen Sichtweisen auf die KI-Branche, den potenziellen Risiken oder der US-Politik ist es entscheidend, Anth…

Scott Aaronson – Shtetl-Optimized 27.02.2026 19:37

Forschung

ArchAgent: KI-gestützte Architekturentdeckung liefert Rekord‑IPC‑Steigerungen

In einer kürzlich veröffentlichten Studie auf arXiv demonstriert ArchAgent, ein automatisiertes System zur Entdeckung von Computerarchitekt…

arXiv – cs.AI 27.02.2026 05:00

Forschung

KI-gestützte Mehragenten-Strategien revolutionieren Formel-1-Rennen

In der Formel 1 werden Rennestrategien ständig an sich ändernde Bedingungen und die Aktionen der Konkurrenz angepasst. Ein neues Forschungs…

arXiv – cs.AI 27.02.2026 05:00

Forschung

LLM-basierte Code‑Weltmodelle steuern Evolutionäre Algorithmen

Eine neue Studie zeigt, dass große Sprachmodelle (LLMs) nicht nur Texte generieren, sondern auch das Verhalten von Optimierern erlernen und…

arXiv – cs.LG 27.02.2026 05:00

Forschung

UDE-basierte Surrogates beschleunigen Agentenbasierte Epidemiemodelle um 10.000×

Eine neue Methode namens ABM‑UDE nutzt Universal Differential Equations (UDE), um agentenbasierte Epidemiemodelle (ABMs) in Sekunden zu rep…

arXiv – cs.LG 26.02.2026 05:00

Forschung

Neues Verfahren: GFlowNets ohne Training für Mehrziel-Generierung

Forscher haben ein innovatives Verfahren vorgestellt, das Generative Flow Networks (GFlowNets) ohne zusätzliche Trainingsschritte für die E…

arXiv – cs.LG 26.02.2026 05:00

Forschung

Soft-MoE: Robustere Exploration in der gerichteten Controller‑Synthese

In der On‑the‑Fly‑Directed Controller Synthesis (OTF‑DCS) wird das Problem der explosionsartigen Zustandsraumgröße durch schrittweise Explo…

arXiv – cs.AI 24.02.2026 05:00

Forschung

Metriken zur Aufgabenkomplexität in Robotik: Ergebnisse überraschen

Reinforcement Learning hat in den letzten Jahren enorme Fortschritte in Robotik und Sprachverarbeitung erzielt. Ein zentrales Problem bleib…

arXiv – cs.LG 24.02.2026 05:00

Aktuell

KI-Emotionen: Werden KI eifersüchtig? Nukleare LLMs, Chinas Benchmark & Politik

In der KI‑Forschung taucht immer wieder die Frage auf, ob künstliche Intelligenzen Gefühle wie Eifersucht entwickeln können. Experimente, b…

Jack Clark – Import AI 23.02.2026 13:31

Forschung

2025 AI Agent Index: Überblick über Technik und Sicherheit von Agenten

Die Welt der Agenten‑KI wird immer autonomer – von der Büroarbeit bis hin zu persönlichen Assistenzaufgaben. Doch die rasante Entwicklung u…

arXiv – cs.AI 23.02.2026 05:00

Forschung

AI: Zeit, den Begriff zu schärfen – Militär als Beispiel

In Forschung, Industrie und Politik ist der Begriff „AI“ allgegenwärtig, doch er bündelt zu viele unterschiedliche Systeme unter einem Dach…

arXiv – cs.AI 23.02.2026 05:00

Forschung

Neues Mixture-of-Experts-Modell verbessert Agentic RL durch Phasenorientierung

In der Welt des Reinforcement Learning (RL) haben große Sprachmodelle (LLM) Agenten mit einer beeindruckenden Fähigkeit ausgestattet, kompl…

arXiv – cs.AI 20.02.2026 05:00

Forschung

Neue Methode steigert Anpassungsfähigkeit in Multi-Agent RL

In der kooperativen Multi-Agenten‑Reinforcement‑Learning‑Forschung ist die Zerlegung von Werten ein zentrales Konzept. Bisher beruhen die m…

arXiv – cs.AI 20.02.2026 05:00

Forschung

Neue Action-Graph-Policies optimieren Koordination in Multi-Agenten-ML

Forscher haben die Action-Graph-Policies (AGP) vorgestellt, ein neues Konzept, das die Koordination von Aktionen in Multi-Agenten-Umgebunge…

arXiv – cs.LG 20.02.2026 05:00

Forschung

EduResearchBench: Neue Benchmark für KI-gestützte Bildungsforschung

Mit dem neuen EduResearchBench wird die Leistungsfähigkeit von Large Language Models (LLMs) im Bereich der Bildungsforschung systematisch b…

arXiv – cs.AI 18.02.2026 05:00

Forschung

Online-Lernen in CMDPs: Near-Optimale Samplekomplexität erreicht

In der Verstärkungslern‑Forschung stellt die Gewährleistung von Sicherheit ein zentrales Problem dar – besonders in Bereichen wie autonomes…

arXiv – cs.LG 18.02.2026 05:00

Finde Modelle, Firmen und Themen

Diffusionspolitik: Bedingte proximal Policy Optimization

Invariant Causal Routing: Neue Steuerung sozialer Normen online

**Neue Bewertungsmethode deckt versteckte Fehler bei KI-Agenten auf**

Effiziente Q-Measure-Learning-Methodik für kontinuierliche Zustände in RL

Ohne Belohnungen: Beobachter lernen optimale Politik aus Aktionen

Neues Multi-Agent-Modell nutzt LLMs zur Analyse von affektiver Polarisierung

COOL-MC: RL-Strategien für Thrombozytenlagerung verifizieren und erklären

HiMAC: Hierarchisches Lernen für LLM-Agenten in Langzeitaufgaben

Neue Auswahltheoreme beweisen: Vorhersagefähige Zustände sind Agenten unerlässlich

Meta‑RL nutzt Symmetrie: Geometrische Methode ermöglicht globale Generalisierung

Neues Training für MoE-Modelle: Experten lernen sich zu spezialisieren

Neue Methode distilliert RL-optimierte LLMs effizienter

Bleib stark, Anthropic – Unterstütze die KI-Entwickler!

ArchAgent: KI-gestützte Architekturentdeckung liefert Rekord‑IPC‑Steigerungen

KI-gestützte Mehragenten-Strategien revolutionieren Formel-1-Rennen

LLM-basierte Code‑Weltmodelle steuern Evolutionäre Algorithmen

UDE-basierte Surrogates beschleunigen Agentenbasierte Epidemiemodelle um 10.000×

Neues Verfahren: GFlowNets ohne Training für Mehrziel-Generierung

Soft-MoE: Robustere Exploration in der gerichteten Controller‑Synthese

Metriken zur Aufgabenkomplexität in Robotik: Ergebnisse überraschen

KI-Emotionen: Werden KI eifersüchtig? Nukleare LLMs, Chinas Benchmark & Politik

2025 AI Agent Index: Überblick über Technik und Sicherheit von Agenten

AI: Zeit, den Begriff zu schärfen – Militär als Beispiel

Neues Mixture-of-Experts-Modell verbessert Agentic RL durch Phasenorientierung

Neue Methode steigert Anpassungsfähigkeit in Multi-Agent RL

Neue Action-Graph-Policies optimieren Koordination in Multi-Agenten-ML

EduResearchBench: Neue Benchmark für KI-gestützte Bildungsforschung

Online-Lernen in CMDPs: Near-Optimale Samplekomplexität erreicht

🍪 Cookie-Einstellungen

Neue Bewertungsmethode deckt versteckte Fehler bei KI-Agenten auf