Rubrikbasierte Belohnung steigert KI-Logik in mehreren Fachbereichen
In den letzten Jahren hat die Verstärkungslern‑Technologie die Fähigkeit großer Sprachmodelle, komplexe Probleme zu lösen, deutlich vorangebracht. Trotz dieser Fortschritte konzentrieren sich die meisten Ansätze noch immer auf ein einzelnes Fachgebiet – etwa Mathematik – und nutzen ausschließlich online‑basierte Belohnungssysteme. Diese Einschränkung begrenzt die Erkundung möglicher Lösungswege und hält die Leistungsentwicklung der Modelle an.