Bayessche Optimierung im Sprachraum: Effizientes KI‑Selbstverbesserungs‑Framework

arXiv – cs.AI Original ≈2 Min. Lesezeit
Anzeige

Große Sprachmodelle (LLMs) ermöglichen es KI-Systemen, sich selbst zu verbessern, indem sie ihre Ergebnisse generieren, bewerten und verfeinern. Neueste Untersuchungen zeigen, dass KI, die sich auf die Optimierung von Prompt‑Varianten konzentriert, sogar besser abschneidet als Reinforcement‑Learning‑optimierte LLMs. Der Erfolg wird dabei meist an der „Query‑Effizienz“ gemessen – der Anzahl der generierten Lösungsvorschläge, die nötig sind, um ein bestimmtes Leistungsniveau zu erreichen.

In vielen gesellschaftlichen Anwendungen ist die eigentliche Begrenzung jedoch nicht die Generierung neuer Ideen, sondern deren Bewertung. Ein Beispiel ist die Messung der Wirksamkeit einer Anzeige, die intensive menschliche Rückmeldungen erfordert und damit viel teurer und zeitaufwändiger ist als das Erstellen eines neuen Werbetextes.

Um die Bewertungseffizienz zu maximieren, ist die Bayessche Optimierung (BO) ein bewährtes Verfahren. Die Herausforderung besteht darin, BO in den Sprachraum zu übertragen, weil die passenden Akquisitionsfunktionen in den Köpfen von LLMs schwer zu schätzen sind.

Die vorliegende Arbeit löst dieses Problem, indem sie nachweist, dass die Kombination aus der einfachen Best‑of‑N‑Auswahl und textuellen Gradienten – also kleinen Textänderungen, die von einem Kritiker‑Modell vorgeschlagen werden – statistisch das Verhalten der Gradienten der klassischen UCB‑Akquisitionsfunktion nachahmt. Diese Funktion sorgt für optimale Exploration in Bezug auf die Bewertungseffizienz.

Auf dieser Grundlage wird das neue Verfahren TextGrad‑Best‑of‑N Bayesian Optimization (T‑BoN BO) vorgestellt. Es ist ein unkompliziertes, bewertungs‑effizientes Framework, das die Sprachoptimierung von KI-Systemen beschleunigt und gleichzeitig die Kosten für menschliche Bewertungen deutlich senkt.

Ähnliche Artikel