METAL: Mit wenigen linearen Schichten Sprachen in multimodale Modelle einbinden
Multimodale KI‑Modelle zeigen bisher vor allem im Englischen beeindruckende Ergebnisse, weil dort reichlich Bild‑Text‑ und Audio‑Text‑Daten vorhanden sind. Für die meisten anderen Sprachen verschlechtert sich die Leistu…