KI News: Kurz und klar.

Anmelden

SOCK: A Benchmark for Measuring Self-Replication in Large Language Models

arXiv – cs.AI • 01.10.2025 05:00 • Original

#Sock #Selbstreplikation #LLM #CLI #R-Score #Benchmark

Anzeige

Ähnliche Artikel

arXiv – cs.AI • 12.01.2026 05:00

TowerMind: Neues Tower-Defense-Umfeld für LLM-Agenten

arXiv – cs.AI • 09.01.2026 05:00

AgentDevel: LLM-Agenten als Release‑Engineering neu gedacht

arXiv – cs.LG • 18.12.2025 05:00

Klein, aber oho: GPT‑OSS 20B dominiert Finanz‑LLM‑Benchmark

arXiv – cs.AI • 18.12.2025 05:00

Neues Benchmark SoMe bewertet LLM-basierte Social‑Media‑Agenten

arXiv – cs.AI • 17.12.2025 05:00

Strukturierte Suche nach Multi-Agenten-Systemen übertrifft LLM-basierte Ansätze

arXiv – cs.LG • 15.12.2025 05:00

Neue Benchmarks für Sprachmodelle neu gedacht: Fokus auf wissenschaftlichen Fortschritt