RISE verbessert Bildannotation in VLMs durch selbstgesteuertes Reasoning
Vision‑Language‑Modelle (VLMs) haben bislang Schwierigkeiten bei komplexen Bildannotationsaufgaben wie der Klassifizierung von Emotionen oder kontextabhängiger Objekterkennung. Dabei konzentriert sich das herkömmliche S…