CONE: Neue Embeddings für komplexe numerische Daten mit Einheitensensitivität

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Ein neues arXiv-Papier (2603.04741v1) präsentiert CONE, ein hybrides Transformer‑Encoder-Modell, das speziell dafür entwickelt wurde, numerische Informationen wie Zahlen, Bereiche und Gaußsche Verteilungen in einem Embedding‑Raum zu kodieren, ohne dabei die semantische Distanz zu verlieren.

Während große Sprachmodelle bislang vor allem sprachliche Zusammenhänge meistern, zeigen die Autoren, dass die reine Behandlung von Zahlen als Texttermine die Leistungsfähigkeit bei numerischen Aufgaben stark einschränkt. CONE adressiert dieses Problem, indem es numerische Werte, ihre Einheiten und zugehörigen Attributnamen in einem einzigen Vektor zusammenführt.

Der Kern des Ansatzes ist ein neuartiger Composite‑Embedding‑Algorithmus, der Zahlen, Bereiche und Gaußsche Verteilungen mit ihren jeweiligen Einheiten und Attributnamen kombiniert. Dadurch werden die komplexen Semantikbeziehungen dieser Daten exakt erfasst und in einem konsistenten Vektorraum abgebildet.

In umfangreichen Experimenten über Web‑, Medizin‑, Finanz‑ und Regierungsdaten hat CONE die numerische Argumentationsfähigkeit deutlich verbessert. Auf dem DROP‑Datensatz erreichte das Modell einen F1‑Score von 87,28 %, was einer Steigerung von bis zu 9,37 % gegenüber aktuellen State‑of‑the‑Art‑Modellen entspricht. Zudem übertraf CONE die führenden Modelle bei Recall@10 um bis zu 25 %.

Die Ergebnisse zeigen, dass CONE einen bedeutenden Fortschritt für Aufgaben darstellt, die präzise numerische Verarbeitung erfordern, und eröffnen neue Möglichkeiten für die Integration von Zahlen und Einheiten in große Sprachmodelle.

Ähnliche Artikel