Feedback Descent: Textoptimierung durch strukturierte Rückmeldungen
Ein neues Verfahren namens Feedback Descent nutzt strukturierte Text‑Feedbacks, um Texte, Prompt‑Ketten, Code‑Snippets und sogar Moleküle zu optimieren – und das ohne die üblichen skalaren Belohnungen. Durch die Beibehaltung detaillierter Kritiken statt deren Vereinfachung zu binären Präferenzen erweitert Feedback Descent den Informationsfluss im Lernprozess und ermöglicht gezielte Optimierungen direkt im Textraum.