LLM‑Alignment: Minimale Kosten bei Label‑Flip‑Poisoning‑Angriffen
In einer neuen Studie von Forschern auf arXiv (Arbeitstitel: Cost‑Minimized Label‑Flipping Poisoning Attack to LLM Alignment) wird gezeigt, wie Angreifer mit minimalem Aufwand die Richtungsentscheidung von großen Sprach…