MetaGDPO: Metakognitive Daten und GDPO reduzieren Vergessen bei kleinen LLMs
Die neuesten Erkenntnisse aus der Forschung zeigen, dass große Sprachmodelle zwar beeindruckende Denkfähigkeiten besitzen, diese aber bei der Kompression in kleinere Modelle häufig zu einem katastrophalen Vergessen führen. Besonders Modelle unter 8 Billionen Parametern verlieren dabei wichtige zuvor erlernte Fertigkeiten, weil die Trainingsdaten und -methoden die Beziehung zwischen dem vorhandenen Wissen und den inhärenten Fähigkeiten des Modells vernachlässigen.