Forschung
WST: Schwache Modelle trainieren starke Modelle – RL-basierte Prompt-Optimierung
WST (Weak-to-Strong Transfer) ist ein neues, automatisiertes Prompt‑Engineering‑Framework, das auf Reinforcement Learning basiert. Es nutzt…
arXiv – cs.LG