Salesforce AI präsentiert FOFPred: Sprachgesteuerte Flussvorhersage für Robotik
Das Forschungsteam von Salesforce AI hat FOFPred vorgestellt, ein neues Framework, das zukünftige optische Flüsse anhand natürlicher Sprachbefehle vorhersagen kann. Durch die Kombination von Bild- und Sprachinformationen eröffnet FOFPred neue Wege, Bewegungen in Echtzeit zu verstehen und vorherzusagen.
FOFPred verbindet große Vision‑Language‑Modelle mit Diffusions‑Transformern, um dichte Bewegungsprognosen in Steuerungs- und Video‑Generierungsanwendungen zu ermöglichen. Das System nimmt ein oder mehrere Bilder sowie einen Sprachbefehl wie „Bewege die Flasche von rechts nach links“ entgegen und liefert die zugehörige optische Flussvorhersage.
Die Fähigkeit, Bewegungen aus sprachlichen Anweisungen zu prognostizieren, kann die Präzision der Robotiksteuerung erheblich verbessern und gleichzeitig realistischere Video‑Generierungen ermöglichen. Damit eröffnet FOFPred neue Möglichkeiten für Automatisierung, Robotik und Medienproduktion.