PIGReward: Personalisierte Bewertung von Text‑zu‑Bild‑Modellen

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Neues Forschungspapier aus dem arXiv‑Repository präsentiert PIGReward, ein innovatives Modell zur Bewertung von Text‑zu‑Bild‑Generierung. Während aktuelle T2I‑Systeme Bilder aus Textbeschreibungen erzeugen, fehlt bislang ein zuverlässiger Weg, die Übereinstimmung dieser Bilder mit individuellen Nutzerpräferenzen zu messen.

PIGReward löst dieses Problem, indem es dynamisch benutzerspezifische Bewertungsdimensionen erzeugt und die Bilder mithilfe von Chain‑of‑Thought‑Reasoning (CoT) analysiert. Durch einen selbst‑bootstrapping‑Ansatz nutzt das Modell begrenzte Referenzdaten, um reichhaltige Nutzerkontexte zu konstruieren – so wird eine Personalisierung ohne aufwändige, benutzerspezifische Trainingsschritte ermöglicht.

Das System liefert nicht nur eine Bewertung, sondern auch personalisiertes Feedback, das Nutzer bei der Optimierung ihrer Eingabeaufforderungen unterstützt. Dadurch wird die Übereinstimmung zwischen generierten Bildern und dem individuellen Wunsch des Nutzers deutlich verbessert.

Zur Validierung wurde PIGBench entwickelt, ein Benchmark, der die unterschiedlichen visuellen Interpretationen derselben Prompt für verschiedene Nutzer erfasst. Umfangreiche Experimente zeigen, dass PIGReward sowohl in der Genauigkeit als auch in der Interpretierbarkeit bestehende Methoden übertrifft und damit eine skalierbare, reasoning‑basierte Grundlage für personalisierte T2I‑Bewertung und -Optimierung schafft.

Ähnliche Artikel