Mit Halluzinationen in multimodalen LLMs wirksam umgehen – CHAIR-DPO-Ansatz
Multimodale Large Language Models (MLLMs) gelten als einheitliche Schnittstelle, die Aufgaben aus NLP und Computer Vision gleichermaßen bewältigen kann. Trotz ihrer beeindruckenden Leistungen bei vielen Benchmarks bleibt ein hartnäckiges Problem bestehen: MLLMs neigen dazu, Halluzinationen zu erzeugen – Antworten, die nicht im Bildmaterial verankert sind.