Skalierung der in-Context Online-Lernfähigkeit von LLMs mittels Meta‑RL
Large Language Models (LLMs) erzielen erstklassige Ergebnisse, wenn sämtliche Aufgabenrelevanten Informationen sofort vorliegen – etwa bei statischen Vorhersagen oder Anweisungsbefolgung. In vielen realen Entscheidungsaufgaben ist das jedoch nicht der Fall: Wichtige Daten müssen durch Interaktion erfasst werden, Feedback ist verzögert und die optimale Strategie erfordert ein Gleichgewicht zwischen Informationssammlung und Ausnutzung.