Fose: Schnelle Bildfusion mit One‑Step‑Diffusion und End‑to‑End‑Netzwerk
Die Pansharpening‑Aufgabe, bei der hochauflösende multispektrale Bilder aus einer Kombination von Niedrigauflösenden Multispektralbildern (LRMSI) und hochauflösenden Panchromatischen Bildern (PAN) erzeugt werden, hat in den letzten Jahren dank moderner Diffusions‑ und End‑to‑End‑Modelle enorme Fortschritte erlebt.
Traditionelle Diffusionsmodelle (DM) erreichen eine sehr genaue Schätzung des Residuals zwischen LRMSI und HRMSI, jedoch erfordern sie einen mehrstufigen Prozess, der viel Rechenleistung und Zeit beansprucht. End‑to‑End‑Modelle hingegen sind schneller, aber ihre Leistung bleibt durch fehlendes Vorwissen und einfache Strukturen begrenzt.
Fose kombiniert das Beste aus beiden Welten. Durch einen vierstufigen Trainingsansatz wird ein leichtgewichtiges Netzwerk entwickelt, das eine One‑Step‑Diffusion mit einem End‑to‑End‑Modell verschmilzt. Zunächst wird ein verbessertes State‑of‑the‑Art‑Diffusionsmodell auf einen einzigen Schritt distilliert, wodurch die Inferenz von 50 Schritten auf lediglich einen Schritt reduziert wird. Anschließend werden das End‑to‑End‑Modell und die One‑Step‑Diffusion mittels schlanker Ensemble‑Blöcke zusammengeführt.
Umfangreiche Experimente an drei gängigen Benchmarks zeigen, dass Fose die Bildqualität deutlich steigert und gleichzeitig die Rechenzeit um das 7,42‑fache im Vergleich zum Baseline‑Diffusionsmodell reduziert. Damit liefert Fose eine attraktive Kombination aus hoher Genauigkeit und exzellenter Effizienz.
Der Code und das Modell stehen unter https://github.com/Kai-Liu001/Fose zur Verfügung.