Neues Framework verbessert GUI-Agenten durch historisches Denken
Mit den jüngsten Fortschritten multimodaler Large Language Models hat die Automatisierung von grafischen Benutzeroberflächen (GUI) einen bedeutenden Sprung gemacht. Um jedoch die Lücke zwischen knappen Nutzeranweisungen und der Komplexität echter Abläufe zu schließen, ist es entscheidend, dass GUI-Agenten über verlässliche episodische Denkfähigkeiten verfügen.