<p>Diffusion-Transformer entschlüsseln räumliche Beziehungen zwischen Objekten</p> <p>In einer neuen Studie auf arXiv wird gezeigt, wie Diffusion-Transformer (DiTs) die korrekten räumlichen Beziehungen zwischen Objekten erzeugen können. Die Forscher haben DiTs von Grund auf neu trainiert – in verschiedenen Größen und mit unterschiedlichen Textencodern – um Bilder zu generieren, die exakt zwei Objekte mit in der Textbeschreibung festgelegten Attributen und räumlichen Beziehungen enthalten.</p> <p>Alle Modell

arXiv – cs.AI Original
Anzeige