MoETTA: Testzeit-Adaptierung bei gemischten Verteilungsverschiebungen
Die Testzeit-Adaptierung (TTA) hat sich als wirksame Methode erwiesen, um Leistungseinbußen bei einseitigen Verteilungsverschiebungen zu reduzieren, indem Modellparameter während der Inferenz angepasst werden. In realen Einsatzszenarien treten jedoch häufig gemischte Verschiebungen auf, bei denen Testdaten von unterschiedlichen und manchmal widersprüchlichen Domänenfaktoren beeinflusst werden. Diese Komplexität stellt selbst die fortschrittlichsten TTA-Methoden vor große Herausforderungen.
Ein wesentlicher Nachteil bestehender Ansätze liegt in ihrer Annahme eines einheitlichen Anpassungswegs. Dabei wird vernachlässigt, dass optimale Gradientenrichtungen je nach Domäne stark variieren können. Zudem konzentrieren sich aktuelle Benchmarks ausschließlich auf synthetische oder homogene Verschiebungen, was die realen heterogenen Bedingungen nicht adäquat abbildet.
MoETTA, ein neu entwickeltes, entropiebasiertes TTA-Framework, integriert die Mixture-of-Experts (MoE)-Architektur. Anstatt eine einzige Update-Regel zu erzwingen, führt MoETTA strukturell entkoppelte Experten ein, die es ermöglichen, entlang vielfältiger Gradientenrichtungen zu adaptieren. Diese flexible und entkoppelte Parameteraktualisierung verbessert die Handhabung heterogener Verschiebungen erheblich.
Zur Simulation realistischer Einsatzbedingungen wurden zwei neue Benchmarks eingeführt: potpourri und potpourri+. Während potpourri ein breiteres Spektrum an Domänenverschiebungen abdeckt – von natürlichen und künstlerischen bis hin zu adversarialen Verzerrungen – erweitert potpourri+ diese Vielfalt noch weiter, um die Komplexität echter Produktionsumgebungen besser abzubilden.