WST: Schwache Modelle trainieren starke Modelle – RL-basierte Prompt-Optimierung
WST (Weak-to-Strong Transfer) ist ein neues, automatisiertes Prompt‑Engineering‑Framework, das auf Reinforcement Learning basiert. Es nutzt ein kleines „Teacher“-Modell, um Anweisungen zu generieren, die die Leistung eines deutlich größeren „Student“-Modells verbessern.