DecisionLLM: LLMs revolutionieren langfristige Entscheidungsfindung
In der Welt der langfristigen Entscheidungsfindung, die bislang vor allem durch Reinforcement Learning (RL) adressiert wurde, eröffnet ein neues Konzept spannende Perspektiven. Das Decision Transformer hat gezeigt, dass RL als autoregressives Sequenzmodell verstanden werden kann. Gleichzeitig haben große Sprachmodelle (LLMs) ihre Fähigkeiten in komplexen Denk- und Planungsaufgaben unter Beweis gestellt. Die Frage, ob LLMs – die auf derselben Transformer‑Architektur basieren, jedoch in einem viel größeren Maßstab arbeiten – die Leistung bei langfristigen, sequentiellen Entscheidungsproblemen steigern können, steht im Fokus dieser Studie.
Die Autoren untersuchen die Anwendung von LLMs auf Offline-Entscheidungsaufgaben. Ein zentrales Problem ist die mangelnde Fähigkeit von LLMs, kontinuierliche Werte zu interpretieren, da sie keine inhärente Vorstellung von numerischer Größe und Reihenfolge besitzen, wenn Zahlen als Text dargestellt werden. Um dieses Hindernis zu überwinden, schlagen sie vor, Trajektorien als eigenständige Modalität zu behandeln. Durch das Lernen einer Ausrichtung zwischen Trajektoriedaten und natürlichen Sprachbeschreibungen der Aufgaben kann das Modell zukünftige Entscheidungen autoregressiv vorhersagen. Dieses Vorgehen wird als DecisionLLM bezeichnet.
Die Studie präsentiert Skalierungsregeln, die zeigen, dass die Leistung von DecisionLLM von drei Faktoren abhängt: Modellgröße, Datenmenge und Datenqualität. In Offline-Benchmarks sowie in realen Bieterszenarien demonstriert DecisionLLM starke Ergebnisse. Insbesondere das Modell DecisionLLM‑3B übertrifft herkömmliche Ansätze in mehreren Tests, was die vielversprechende Rolle großer Sprachmodelle in der langfristigen Entscheidungsfindung unterstreicht.