Fine-Grained Safety Neurons with Training-Free Continual Projection to Reduce LLM Fine Tuning Risks
Anzeige
Ähnliche Artikel
arXiv – cs.AI
•
KI versteht Abtreibungsstigma nicht – Forschung zeigt Lücken in LLMs
Gary Marcus – Marcus on AI
•
LLMs im Fokus: Neue Wege der Manipulation und ihre Gefahren
arXiv – cs.AI
•
Neues Prinzipien-Framework verbessert KI-gestützte Gesundheitsanwendungen
arXiv – cs.AI
•
ARCANE: Mehragenten-Framework für interpretierbare und konfigurierbare Alignment
arXiv – cs.LG
•
Roblox Guard 1.0: Neues LLM-Modell mit robusten Moderations-Guardrails
arXiv – cs.LG
•
Neue Methode verbessert Datenqualität von LLMs durch Offline-Auswahl und Online-Optimierung