Selbstlernende Graphenkondensation: PLGC überwindet Labelprobleme
Die Verarbeitung großer Graphdatenmengen ist für Graph Neural Networks (GNNs) mit enormen Rechenaufwand verbunden. Graphenkondensation‑Methoden reduzieren dieses Problem, indem sie kompakte, synthetische Graphen erzeugen, die die Struktur und Merkmale der Originaldaten nachbilden. Bisher basieren diese Ansätze jedoch auf sauberen, überwachten Labels – ein Ansatz, der bei fehlenden, verrauschten oder inkonsistenten Labels versagt.
Die neue Methode Pseudo‑Labeled Graph Condensation (PLGC) löst dieses Problem, indem sie ein selbstüberwachtes Framework nutzt. PLGC erstellt latente Pseudo‑Labels aus Knoteneinbettungen und optimiert die kondensierten Graphen so, dass sie die strukturellen und statistischen Eigenschaften des Originals exakt widerspiegeln – ohne auf echte Labels angewiesen zu sein.
PLGC liefert drei wesentliche Beiträge: Erstens erklärt es, warum überwachte Kondensation bei Label‑Rauschen und Verteilungsverschiebungen scheitert. Zweitens bietet es eine label‑freie Kondensation, die gleichzeitig latente Prototypen und Knotenzuweisungen lernt. Drittens liefert es theoretische Garantien, die zeigen, dass die Pseudo‑Labels die latenten Strukturdaten erhalten und eine präzise Einbettungsangleichung sicherstellen.
In umfangreichen Experimenten zu Knotenkategorisierung und Linkvorhersage übertrifft PLGC die führenden überwachten Kondensationsmethoden bei sauberen Datensätzen und demonstriert dabei eine bemerkenswerte Robustheit gegenüber Label‑Rauschen. Oft übertrifft es sämtliche Baselines deutlich, was die praktischen und theoretischen Vorteile selbstüberwachter Graphenkondensation in unsicheren oder schwach gelabelten Umgebungen unterstreicht.