RubricHub: Automatisierte Rubrikenerstellung steigert KI-Performance

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

In der KI-Forschung hat das neue Verfahren Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) bereits bedeutende Fortschritte in fordernden Bereichen wie Mathematik erzielt. Dennoch bleibt die Optimierung von offenen Generierungsaufgaben schwierig, weil es kaum echte Referenzdaten gibt. Rubrikbasierte Bewertungen bieten einen strukturierten Ansatz zur Verifikation, stoßen jedoch bei bestehenden Methoden an Skalierbarkeitsgrenzen und liefern zu grobe Kriterien, die die Lernleistung begrenzen.

Um dieses Problem zu lösen, wurde ein automatisierter Coarse-to-Fine-Rubrikenerstellungsrahmen entwickelt. Durch die Kombination von prinzipgeleiteter Synthese, Aggregation mehrerer Modelle und einer sukzessiven Erschwernisentwicklung entstehen umfassende und hoch differenzierende Bewertungskriterien, die feine Nuancen erkennen können.

Auf Basis dieses Rahmens wurde RubricHub ins Leben gerufen – ein großes, mehrdomäniges Datenset mit rund 110.000 Rubriken. Die Wirksamkeit des Datensatzes wurde in einem zweistufigen Post-Training-Workflow getestet, der zunächst rubrikbasiertes Ablehnungs-Sampling-Fine-Tuning (RuFT) und anschließend Reinforcement Learning (RuRL) nutzt.

Die Experimente zeigen, dass RubricHub die Leistung signifikant steigert: Das nachträglich trainierte Modell Qwen3-14B erreicht mit 69,3 % auf HealthBench einen neuen Stand der Technik und übertrifft dabei proprietäre Spitzenmodelle wie GPT‑5. Der zugehörige Code und die Daten werden in Kürze veröffentlicht.

Ähnliche Artikel