Ungekennzeichnete Daten verbessern das In-Context-Lernen von Transformern
Große Sprachmodelle zeigen beeindruckende Fähigkeiten im In-Context-Lernen, doch ihre Genauigkeit bleibt durch die wenigen kostenintensiven gelabelten Beispiele, die in einen Prompt passen, begrenzt. Gleichzeitig existieren riesige Mengen an unlabelierten Daten, die eng mit der ICL-Aufgabe verknüpft sein können.
In einer neuen Studie wird ein ergänztes ICL-Framework vorgestellt, bei dem der Prompt aus einer kleinen Gruppe gelabelter Beispiele sowie einem Block unlabelierter Eingaben besteht. Der Fokus liegt auf der multi‑klassigen linearen Klassifikation.
Durch Chain‑of‑Thought‑Prompting kann ein mehrschichtiger Transformer effektiv einen Erwartungs‑Maximierungs‑Algorithmus nachahmen. Dadurch extrahiert das Modell implizit nützliche Informationen aus beiden Datentypen, was zu nachweislich besseren ICL‑Genauigkeiten führt.
Die Autoren zeigen zudem, dass der Transformer mittels Teacher‑Forcing trainiert werden kann, wobei die Parameter linear zum gewünschten Ergebnis konvergieren. Experimentelle Ergebnisse belegen, dass das erweiterte ICL-Framework konventionelle Few‑Shot‑ICL‑Methoden konsequent übertrifft und die theoretischen Erkenntnisse bestätigt.
Nach aktuellem Stand ist dies die erste theoretische Untersuchung, die den Einfluss unlabelierter Daten auf die ICL‑Leistung von Transformern systematisch analysiert.