Neues Verfahren: Selbstüberwachtes Lernen mit Gaußschen Prozessen
In einem aktuellen Beitrag auf arXiv wird ein innovatives Konzept vorgestellt, das selbstüberwachtes Lernen (SSL) mit Gaußschen Prozessen (GP) kombiniert. SSL ermöglicht es Modellen, Strukturen in Daten zu erkennen, ohne dass explizite Labels benötigt werden. Die daraus gewonnenen Repräsentationen sind für zahlreiche Aufgaben wie Clustering oder lineare Klassifikation nützlich.
Traditionelle SSL-Methoden bauen stark auf der Erzeugung ähnlicher Datenpaare auf, was bei vielen Datentypen schwierig ist. Zudem berücksichtigen sie keine Unsicherheitsabschätzungen, was die Leistung bei Vorhersagen außerhalb des Trainingsdatensatzes beeinträchtigen kann.
GPSSL adressiert diese Schwächen, indem es GP‑Prioritäten auf die Repräsentationen legt und einen generalisierten Bayesschen Posterior erhält, der einen Verlust minimiert, der informative Repräsentationen fördert. Die inhärente Kovarianzfunktion von GPs zieht ähnliche Einheiten automatisch zusammen und ersetzt damit die Notwendigkeit expliziter positiver Paare.
Das Verfahren steht in engem Zusammenhang mit Kernel‑PCA und dem beliebten SSL‑Ansatz VICReg, bietet jedoch den entscheidenden Vorteil, dass Unsicherheiten im Posterior erfasst und an nachgelagerte Aufgaben weitergegeben werden können.
Experimentelle Ergebnisse auf verschiedenen Datensätzen zeigen, dass GPSSL sowohl bei Klassifikations- als auch bei Regressionsaufgaben die Leistung traditioneller Methoden übertrifft.