Forschung
METAL: Mit wenigen linearen Schichten Sprachen in multimodale Modelle einbinden
Multimodale KI‑Modelle zeigen bisher vor allem im Englischen beeindruckende Ergebnisse, weil dort reichlich Bild‑Text‑ und Audio‑Text‑Daten…
arXiv – cs.LG