Ressourcenschonende Verstärkung für LLMs: One-Shot-Policy-Optimierung
Große Sprachmodelle (LLMs) haben bei komplexen Denkaufgaben beeindruckende Ergebnisse erzielt. Ein vielversprechender Ansatz zur Ausrichtung ihres Verhaltens auf nachvollziehbare Argumentationsketten ist das Reinforceme…