DeepThink3D verbessert 3D‑Situationslogik von Sprachmodellen
Mit dem neuen Ansatz DeepThink3D wird die Fähigkeit großer Sprachmodelle (LLMs) zur komplexen 3D‑Situationslogik deutlich gesteigert. Durch die gezielte Nutzung von Tools über APIs und die Integration der erzeugten Programme in einen „Chain‑of‑Thought“-Prozess können LLMs Aufgaben in dreidimensionalen Szenen lösen, die bisher nur schwer zu bewältigen waren.
Ein Hauptproblem der bisherigen Forschung war die Einfachheit der Fragen im SQA3D‑Datensatz, was zu kurzen und wenig aussagekräftigen Programm‑Rekonstruktionsketten führte. DeepThink3D löst dieses Problem, indem es einen kombinierten, iterativen Evolutionsansatz nutzt, um aus dem Benchmark noch komplexere Fragen zu generieren. Anschließend wird das Sprachmodell feinabgestimmt, um die 3D‑Tools noch effizienter einzusetzen.
Durch den Einsatz von Direct Preference Optimization (DPO) werden die von den Modellen erzeugten Tool‑Chain‑Strategien direkt optimiert. Dieser Ansatz verbessert die Genauigkeit bei anspruchsvollen Aufgaben signifikant und macht DeepThink3D zu einem wichtigen Fortschritt in der KI‑gestützten 3D‑Logik.