S²-KD: Semantisch-spektrales Wissenstransferverfahren verbessert Vorhersagen
Spatiotemporale Vorhersagen, die Wetterphänomene oder Verkehrsströme prognostizieren, erfordern oft rechenintensive Modelle, um die komplexen Dynamiken einzufangen. Knowledge‑Distillation (KD) hat sich als Schlüsseltechnologie etabliert, um schlanke Schülermodelle zu erzeugen, die dennoch die wichtigsten Eigenschaften des Lehrers übernehmen.
Neuere Ansätze, die sich auf frequenzbasierte KD konzentrieren, bewahren zwar die spektralen Details – sowohl hochfrequente Nuancen als auch langfristige Trends – aber sie arbeiten ausschließlich auf Pixel‑Ebene. Dadurch bleiben sie blind gegenüber den semantischen und kausalen Zusammenhängen, die hinter den visuellen Mustern liegen.
Mit S²‑KD wird diese Lücke geschlossen. Ein multimodaler Lehrer, der auf einem großen multimodalen Modell (LMM) basiert, nutzt Textbeschreibungen, um die Ursachen von Ereignissen zu verstehen, während er gleichzeitig die spektralen Komponenten in seinem latenten Raum trennt. Das neue Distillationsziel überträgt dieses kombinierte semantisch‑spektrale Wissen auf ein leichtgewichtiges, ausschließlich bildbasiertes Schülermodell.
Durch diese Methode lernt der Schüler nicht nur spektral präzise Vorhersagen zu treffen, sondern auch semantisch kohärente Ergebnisse zu liefern – ohne dass bei der Inferenz Textdaten oder zusätzliche Architekturkomponenten nötig sind. Umfangreiche Tests auf den Benchmarks WeatherBench und TaxiBJ+ zeigen, dass S²‑KD die Leistung einfacher Schülermodelle deutlich steigert und sie sogar gegen aktuelle Spitzenmethoden, insbesondere bei langen Vorhersagehorizonten, übertrifft.