Med-CRAFT: Automatisierte Erstellung interpretierbarer Video-Benchmarks
Die Verfügbarkeit hochwertiger, logisch annotierter Video-Datensätze ist ein entscheidender Engpass für die Weiterentwicklung von multimodalen großen Sprachmodellen im medizinischen Bereich. Manuelle Annotationen sind kostenintensiv und nicht skalierbar, während synthetische Verfahren häufig zu Halluzinationen und fehlender logischer Nachvollziehbarkeit führen.