Modellfusion steigert Zero-Shot-Generalisierung in Bioakustik-Foundation-Modellen

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Foundation‑Modelle, die sich über verschiedene Arten und Aufgaben hinweg verallgemeinern können, eröffnen ein neues, vielversprechendes Feld in der Bioakustik. Ein prominentes Beispiel dafür ist NatureLM, das durch domänenspezifisches Feintuning hervorragende Ergebnisse auf bioakustischen Benchmarks erzielt. Allerdings führt dieses Feintuning zu einem Verlust an Flexibilität beim Befolgen von Anweisungen: Während NatureLM bei Anfragen nach dem gemeinen oder dem wissenschaftlichen Namen einer Art sehr genau antwortet, sinkt die Genauigkeit stark, wenn beide Namen gleichzeitig abgefragt werden.

Die Autoren haben eine einfache Modell‑Fusion‑Strategie entwickelt, die NatureLM mit seinem Basis‑Sprachmodell interpoliert. Durch diese Mischung werden die Anweisungsfähigkeiten wiederhergestellt, ohne dass das domänenspezifische Wissen wesentlich verloren geht. Das resultierende Modell zeigt eine deutlich verbesserte Zero‑Shot‑Generalisation und erzielt mehr als 200 % relative Verbesserung gegenüber dem reinen NatureLM. Damit setzt es einen neuen Standard für die geschlossene Zero‑Shot‑Klassifikation von bislang unbekannten Arten.

Ähnliche Artikel