Erklärung, Verifikation und Ausrichtung semantischer Hierarchien in VLMs
Vision‑Language‑Modelle (VLMs) wie CLIP ermöglichen beeindruckende Bild‑Text‑Retrieval‑ und Zero‑Shot‑Klassifikationsfähigkeiten, doch die semantische Struktur ihres gemeinsamen Embedding‑Raums bleibt bislang wenig unte…