ConstrainedSQL: LLMs für Text2SQL mit konstrahiertem Reinforcement Learning trainieren
Reinforcement Learning (RL) hat großes Potenzial, die Fähigkeit von Large Language Models (LLMs) zur Lösung von Text‑zu‑SQL‑Aufgaben zu verbessern. Frühere Ansätze wie GRPO und DAPO zeigen beeindruckende Ergebnisse, sind jedoch stark von der Gestaltung der Belohnungsfunktion abhängig. Ungeeignete Belohnungen können zu „Reward‑Hacking“ führen, bei dem Modelle die Belohnungsstruktur ausnutzen, ohne die eigentliche Aufgabe zu lösen.