SpotAgent: LVLMs meistern Geo‑Lokalisierung mit agentischem Denken
Large Vision‑Language Models (LVLMs) haben in der Lage, komplexe räumliche Fragen zu beantworten, stoßen jedoch häufig an Grenzen, wenn die visuellen Hinweise knapp, selten oder mehrdeutig sind. Solche Situationen führe…