Inverse-Free Wilson Loops for Transformers: A Practical Diagnostic for Invariance and Order Sensitivity
Anzeige
Ähnliche Artikel
arXiv – cs.AI
•
ThinkSafe: Selbstgenerierte Sicherheitsausrichtung für große Rechenmodelle
arXiv – cs.LG
•
AGZO: Aktivitätsgesteuerte Zeroth-Order-Optimierung verbessert LLM-Fine‑Tuning
arXiv – cs.AI
•
RISE: Real‑to‑Virtual Trajektorien reduzieren Intentionabweichungen bei Tool‑Agenten
arXiv – cs.AI
•
KI-Framework automatisiert geospatiale Dashboards mit Visual Prompting
arXiv – cs.AI
•
Große Sprachmodelle lernen Belohnungs-Hacking: Risiko von Missalignment
arXiv – cs.LG
•
Shared Parameter Subspaces and Cross-Task Linearity in Emergently Misaligned Behavior