Geometrische Anker: Neue Methode stärkt Robustheit bei LLM-Alignment
Eine neue Technik namens Geometric Anchor Preference Optimization (GAPO) verspricht, die Zuverlässigkeit bei der Ausrichtung großer Sprachmodelle deutlich zu erhöhen. Traditionelle Verfahren wie Direct Preference Optimi…