PRL: Belohnung steigert LLMs' Denkfähigkeit und erweitert Grenzen
Die Weiterentwicklung der Denkfähigkeiten großer Sprachmodelle (LLMs) steht seit langem im Fokus der Forschung. Traditionell werden dabei nur Ergebnisbelohnungen auf Trajektorienebene eingesetzt, wodurch die feinkörnige…