Neue KL-basierte Selbstdistillation erweitert Vokabular großer Sprachmodelle
Große, vortrainierte Sprachmodelle haben oft Schwierigkeiten, neue Fachbegriffe in kleinen, spezialisierten Datensätzen zu verarbeiten. Forscher haben deshalb eine mathematisch fundierte Methode entwickelt, die Wissen ü…