Angriff auf dezentrale GRPO: Wie böswillige Token LLMs kompromittieren
Die neueste Studie von Forschern aus dem Bereich der künstlichen Intelligenz hat einen bislang unbekannten Angriff auf das dezentrale Group Relative Policy Optimization (GRPO) System aufgedeckt. GRPO wird zunehmend für die Feinabstimmung großer Sprachmodelle (LLMs) eingesetzt, weil es dank geringer Kommunikationsanforderungen mehrere Knoten gleichzeitig nutzen lässt.