PG-Agent: Neuer GUI-Agent nutzt Seitengraphen für bessere Generalisierung
Graphical User Interface (GUI)-Agenten, die auf fortschrittlichen multimodalen großen Sprachmodellen (MLLMs) basieren, zeigen enormes kommerzielles und gesellschaftliches Potenzial. Trotz ihrer Leistungsfähigkeit stoßen aktuelle Agenten an Grenzen, wenn es darum geht, komplexe Übergänge zwischen Webseiten zu erfassen und sich auf neue Szenarien anzupassen.