COVERT: Neue Synthese für KI-Tool-Use, die RL-Training verbessert
Die neu entwickelte Pipeline COVERT liefert KI-Systemen ein robustes Trainingsmaterial für Reinforcement Learning (RL). Durch einen zweistufigen Ansatz werden erst verlässliche Tool‑Use‑Trajektorien generiert und anschl…
- Die neu entwickelte Pipeline COVERT liefert KI-Systemen ein robustes Trainingsmaterial für Reinforcement Learning (RL).
- Durch einen zweistufigen Ansatz werden erst verlässliche Tool‑Use‑Trajektorien generiert und anschließend gezielt komplexere Umgebungen geschaffen, die reale Abläufe bes…
- Im ersten Schritt nutzt COVERT eine selbstentwickelnde Synthese, die mithilfe mehrstufiger Validierung sicherstellt, dass die Basis‑Trajektorien korrekt und zuverlässig…
Die neu entwickelte Pipeline COVERT liefert KI-Systemen ein robustes Trainingsmaterial für Reinforcement Learning (RL). Durch einen zweistufigen Ansatz werden erst verlässliche Tool‑Use‑Trajektorien generiert und anschließend gezielt komplexere Umgebungen geschaffen, die reale Abläufe besser abbilden.
Im ersten Schritt nutzt COVERT eine selbstentwickelnde Synthese, die mithilfe mehrstufiger Validierung sicherstellt, dass die Basis‑Trajektorien korrekt und zuverlässig sind. Diese Trajektorien bilden die Grundlage für das weitere Training.
Der zweite Schritt führt „oracle‑preserving“ Augmentierungen ein: Distraktortools, indirekte oder mehrdeutige Nutzeranfragen sowie verrauschte, mehrformate oder fehlerhafte Tool‑Ausgaben werden hinzugefügt, während die ursprünglichen Oracle‑Aufrufe und Endergebnisse als Referenz erhalten bleiben. Dadurch entsteht ein realistisches, aber kontrolliertes Umfeld für das RL‑Training.
Für die Belohnungsberechnung wird ein zweistufiges Verfahren eingesetzt: Standardfälle werden durch Referenzabgleich automatisch bewertet, während spezielle Verhaltensweisen wie Fehlererkennung von einem leichtgewichtigen Prüfer unterstützt werden. Dieses System ermöglicht eine präzise und effiziente Optimierung der Tool‑Calling‑Strategien.
In Experimenten mit dem Modell Qwen2.5‑Instruct‑14B erzielte COVERT‑RL eine Steigerung der Gesamtgenauigkeit auf BFCL v3 von 56,5 % auf 59,9 % und auf ACEBench von 53,0 % auf 59,3 %. Die Verbesserungen gingen mit minimalen Regressionswerten bei allgemeinen Benchmarks einher. Wenn die Pipeline zusätzlich auf ein bereits feinabgestimmtes Modell (SFT) gestapelt wurde, erreichte sie noch höhere Werte von 62,1 % bzw. 61,8 %.
Diese Ergebnisse zeigen, dass oracle‑preserving synthetische Umgebungen einen praktikablen und ergänzenden RL‑Verfeinerungs‑Schritt darstellen. Sie erhöhen die Robustheit von KI‑Systemen im Umgang mit Mehrdeutigkeiten und unzuverlässigem Tool‑Feedback, ohne die Grundleistung zu beeinträchtigen.
Welche Linse du auf diese Meldung legen solltest
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.