SAGE: Agentenbasierte Datengenerierung beschleunigt Deep Search mit Feedback
Die neue Methode SAGE (Steerable Agentic Data Generation) ermöglicht es, hochwertige Frage‑Antwort‑Paare für komplexe Suchaufgaben automatisch zu erzeugen. Dabei wird ein Datengenerator genutzt, der Fragen und passende Antworten vorschlägt, während ein Suchagent versucht, die Fragen zu lösen und Rückmeldungen zur Ausführung zu geben.
Durch mehrere Interaktionsrunden werden die Paare iterativ verfeinert, bis sie ein vorgegebenes Schwierigkeitsniveau erreichen. Die interne Bewertung zeigt, dass SAGE Fragen generiert, die vielfältige Denkstrategien erfordern und gleichzeitig die Richtigkeit sowie die Komplexität der Daten deutlich steigern.
In externen Tests konnte die Nutzung der synthetischen Daten zu einem Anstieg der Leistung um bis zu 23 % bei etablierten Deep‑Search‑Benchmarks führen. Zudem bewiesen Agenten, die mit SAGE‑Daten trainiert wurden, die Fähigkeit, von einer festen Dokumentensammlung auf Google‑Suche im Inferenzmodus zu wechseln, ohne zusätzliche Trainingsschritte.