Forschung
Duel‑Evolve: Optimierung von LLM‑Ausgaben ohne externe Belohnungen
Ein neues Verfahren namens Duel‑Evolve nutzt die eigenen Präferenzen eines großen Sprachmodells, um seine Ausgaben zu optimieren, ohne auf…
arXiv – cs.LG