DARA: KI-gestützte Budgetallokation in Online‑Werbung mit Few‑Shot‑Ansatz

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Werbetreibende stehen vor der komplexen Aufgabe, den Gesamtwert gewonnenen Impressionen innerhalb knapper Budgets zu maximieren. Dabei fehlt häufig umfangreiche Historie, sodass klassische Reinforcement‑Learning‑Methoden kaum effektiv arbeiten können.

Große Sprachmodelle (LLMs) bieten hier einen vielversprechenden Ansatz: Durch in‑Kontext‑Lernen lassen sich aus wenigen Beispielen generalisieren. Allerdings mangelt es ihnen an der nötigen numerischen Präzision für fein abgestimmte Optimierungen. Um dieses Defizit zu beheben, wurde GRPO‑Adaptive entwickelt – ein Post‑Training‑Verfahren, das die Referenzpolicy während des Lernens dynamisch anpasst und so sowohl das logische Denken als auch die Zahlenpräzision verbessert.

Auf dieser Basis stellt DARA ein zweiphasiges Framework vor. In der ersten Phase nutzt ein „Few‑Shot‑Reasoner“ in‑Kontext‑Prompting, um grobe Pläne zu generieren. Anschließend verfeinert ein „Fine‑Grained Optimizer“ diese Pläne mithilfe von feedback‑gestütztem Denken. Durch diese Trennung können die Stärken der LLMs mit der erforderlichen Genauigkeit für Online‑Bidding‑Aufgaben kombiniert werden.

Umfangreiche Tests an realen und synthetischen Datensätzen zeigen, dass DARA die bestehenden Baselines in Bezug auf den kumulativen Werbewert unter Budgetbeschränkungen konsequent übertrifft. Damit eröffnet die Methode neue Möglichkeiten für effiziente, datenarme Werbestrategien im digitalen Raum.

Ähnliche Artikel