WIST: Web-basierte Selbstspiel-Strategie verbessert domänenspezifisches Denken
WIST (Web‑Grounded Iterative Self‑Play Tree) ist ein neues Framework, das Sprachmodelle direkt aus dem offenen Web lernen lässt, ohne auf vorgefertigte Domänenkorpora angewiesen zu sein. Durch die sukzessive Erweiterung…
- WIST (Web‑Grounded Iterative Self‑Play Tree) ist ein neues Framework, das Sprachmodelle direkt aus dem offenen Web lernen lässt, ohne auf vorgefertigte Domänenkorpora an…
- Durch die sukzessive Erweiterung eines Domänenbaums sammelt WIST konsistente Webinhalte, bereinigt sie und schafft damit ein kontrollierbares Trainingsumfeld.
- Im Kern führt WIST ein Challenger–Solver‑Selbstspiel mit verifizierbaren Belohnungen durch.
WIST (Web‑Grounded Iterative Self‑Play Tree) ist ein neues Framework, das Sprachmodelle direkt aus dem offenen Web lernen lässt, ohne auf vorgefertigte Domänenkorpora angewiesen zu sein. Durch die sukzessive Erweiterung eines Domänenbaums sammelt WIST konsistente Webinhalte, bereinigt sie und schafft damit ein kontrollierbares Trainingsumfeld.
Im Kern führt WIST ein Challenger–Solver‑Selbstspiel mit verifizierbaren Belohnungen durch. Die daraus gewonnenen Lernsignale werden genutzt, um die Posterior‑Wahrscheinlichkeiten der Knoten zu aktualisieren und die weitere Exploration über ein adaptives Curriculum zu steuern. So bleibt das Modell stets fokussiert und lernt effizient aus den gesammelten Daten.
In Tests mit vier unterschiedlichen Basis‑Modellen übertrifft WIST sowohl reine Endogene‑Selbstentwicklung als auch klassische corpus‑basierte Selbstspiel‑Ansätze. Die Gesamtverbesserungen liegen bei +9,8 Punkten für Qwen3‑4B‑Base und +9,7 für OctoThinker‑8B. Besonders beeindruckend sind die domänenspezifischen Steigerungen: Qwen3‑8B‑Base gewinnt um +14,79 in der Medizin, während Qwen3‑4B‑Base um +5,28 auf PhyBench aufholt.
Die Ablation‑Studien bestätigen, dass die Kernkomponenten von WIST – die Web‑Erfassung, die selbstspiel‑Belohnungen und das adaptive Curriculum – entscheidend für die stabile Lernleistung sind. Der komplette Code ist frei verfügbar unter https://github.com/lfy-123/WIST.
Welche Linse du auf diese Meldung legen solltest
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.