LLM-gestützte Textclusterung: 20‑fach weniger Anfragen, gleiche Genauigkeit
Ein neues arXiv‑Veröffentlichung (2601.11118v1) präsentiert einen innovativen Ansatz zur Textclusterung, der große Sprachmodelle (LLMs) nutzt, um automatisch Einschränkungen zu generieren. Diese Einschränkungen – sogenannte Must‑Link‑ und Cannot‑Link‑Paare – dienen dazu, die Clusterbildung gezielt zu steuern und die Genauigkeit zu erhöhen.
Der Kern des Ansatzes besteht darin, statt einzelner Paar‑Constraints komplette Constraint‑Sätze zu erzeugen. Dadurch sinkt der Bedarf an LLM‑Abfragen drastisch, während gleichzeitig die Qualität der generierten Einschränkungen erhalten bleibt. Der neue Algorithmus berücksichtigt dabei ein Vertrauens‑Threshold und ein Strafsystem, um potenziell fehlerhafte Constraints zu kompensieren.
In umfangreichen Tests auf fünf unterschiedlichen Textdatensätzen konnte gezeigt werden, dass die Methode die gleiche Cluster‑Genauigkeit wie aktuelle Spitzenalgorithmen erreicht – und das mit mehr als 20‑fach weniger LLM‑Anfragen. Damit bietet die Arbeit einen bedeutenden Fortschritt für ressourcenschonende, hochpräzise Textclusterung.