Google präsentiert RL-Framework, das Modelle zum komplexen Denken befähigt
Forscher der Google Cloud und der UCLA haben ein neues Reinforcement‑Learning‑Framework vorgestellt, das es kleinen Sprachmodellen ermöglicht, anspruchsvolle Mehr‑Schritt‑Logikaufgaben zu meistern. Das System, genannt Supervised Reinforcement Learning (SRL), wandelt das Lösen von Problemen in eine Folge von logischen „Aktionen“ um und liefert dabei reichhaltige Lernsignale während des Trainings.