See-Control: Multimodaler Agent für Smartphone-Steuerung mit Roboterarm
Mit den neuesten Fortschritten in multimodalen großen Sprachmodellen (MLLMs) wird die Idee, intelligente Agenten zur Steuerung von Smartphones einzusetzen, Realität. Bisher waren die meisten Ansätze jedoch auf die Andro…