PuzzleClone: SMT-basiertes Framework liefert skalierbare, verifizierbare Datensätze für LLMs

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

In der Forschung zu großen Sprachmodellen (LLMs) sind hochwertige, verifizierbare Datensätze entscheidend, um deren logisches und mathematisches Denken zu verbessern. Aktuelle, von LLMs generierte Datensätze weisen häufig Einschränkungen in Zuverlässigkeit, Vielfalt und Skalierbarkeit auf.

Um diesen Mangel zu beheben, präsentiert das Team von PuzzleClone ein neues, formalisiertes Framework, das mithilfe von Satisfiability Modulo Theories (SMT) Daten in großem Umfang erzeugt. Das System kombiniert drei zentrale Innovationen: Erstens werden Ausgangspuzzles in strukturierte logische Spezifikationen übersetzt. Zweitens werden durch gezielte Randomisierung von Variablen und Einschränkungen skalierbare Varianten generiert. Drittens garantiert ein Reproduktionsmechanismus die Gültigkeit jeder erzeugten Aufgabe.

Durch den Einsatz von PuzzleClone wurde ein kuratiertes Benchmark bestehend aus über 83 000 vielfältigen, programmgesteuert validierten Puzzles erstellt. Die Aufgaben decken ein breites Spektrum an Schwierigkeitsgraden und Formaten ab und stellen aktuelle Spitzenmodelle vor erhebliche Herausforderungen.

Nach einer Post‑Training‑Phase (SFT und RL) auf den PuzzleClone‑Datensätzen erzielte die Modelle signifikante Verbesserungen. Die durchschnittliche Punktzahl auf dem PuzzleClone‑Testset stieg von 14,4 auf 56,2, und die Leistung auf sieben logischen und mathematischen Benchmarks verbesserte sich um bis zu 12,5 Prozentpunkte – beispielsweise von 52,5 auf 65,0 bei AMC2023.

Der komplette Code sowie die Datensätze stehen unter https://github.com/puzzleclone zur Verfügung, sodass die Community die Ergebnisse reproduzieren und weiterentwickeln kann.

Ähnliche Artikel