LaPha: Latentraum-Strategie steigert LLM-Performance bei Matheaufgaben

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Ein neues Verfahren namens LaPha eröffnet einen vielversprechenden Ansatz für die Schulung von AlphaZero‑ähnlichen Sprachmodellen. Durch die Nutzung eines Poincaré‑Latentraums wird die Suche nach Lösungen in einem hyperbolischen Raum visualisiert, der von der Ausgangsfrage ausgeht und sich bis zur Grenze des Poincaré‑Balls erstreckt. Die negative Krümmung dieses Raums sorgt dafür, dass die Kapazität mit dem Radius exponentiell zunimmt, was die Effizienz der Suchprozesse deutlich verbessert.

LaPha definiert für jeden Knoten im Suchbaum eine „Potential“-Metrik, die auf der hyperbolischen Geodätischen Distanz basiert. Durch die Differenz dieser Potentiale werden dichte Prozessbelohnungen vergeben, die das Modell gezielt in die richtige Richtung lenken. Zusätzlich wird ein leichtgewichtiges Wert‑Head‑Modul im selben Latentraum angebracht, das eine selbstgesteuerte Skalierung während der Testphase ermöglicht, ohne dass erhebliche zusätzliche Rechenressourcen benötigt werden.

Die Ergebnisse sind beeindruckend: Auf dem MATH‑500‑Datensatz verbessert LaPha die Genauigkeit des Modells Qwen2.5‑Math‑1.5B von 66,0 % auf 88,2 %. Mit dem wertbasierten Suchansatz erreicht LaPha‑1.5B 56,7 % Genauigkeit bei AIME '24, während die 7‑Billionen‑Parameter‑Version LaPha‑7B 60,0 % bei AIME '24 und 53,3 % bei AIME '25 erzielt.

Diese Fortschritte zeigen, dass die Kombination aus hyperbolischer Geometrie und gezielten Belohnungsmechanismen eine effektive Methode darstellt, um die Leistungsfähigkeit von großen Sprachmodellen in mathematischen Aufgaben zu steigern. Die Entwickler planen, LaPha weiter zu optimieren und auf weitere Anwendungsbereiche auszuweiten.

Ähnliche Artikel