Ensemble aus LLMs steigert Textklassifikation um bis zu 65 %
Eine neue Studie aus dem arXiv-Repository präsentiert ein Ensemble‑Framework, das die Klassifikation von unstrukturiertem Text mithilfe mehrerer Large Language Models (LLMs) deutlich verbessert. Durch die Kombination von zehn hochmodernen Modellen wird die typische Schwäche einzelner Systeme – wie Inkonsistenz, Halluzinationen, Kategorieninflation und Fehlklassifikationen – effektiv reduziert.
Der Ansatz, der als eLLM (ensemble large language model) bezeichnet wird, erzielt laut den Autoren eine Steigerung des F1‑Scores um bis zu 65 % im Vergleich zum stärksten Einzelmodell. Diese Verbesserung resultiert aus einer mathematisch fundierten Entscheidungsfindung, die die Stärken der einzelnen Modelle zusammenführt und gleichzeitig ihre Schwächen kompensiert.
Die Evaluation erfolgte unter identischen Zero‑Shot-Bedingungen auf einem menschlich annotierten Korpus von 8 660 Texten, der die hierarchische Taxonomie des Interactive Advertising Bureau (IAB) nutzt. Während einzelne Modelle bei der Kompression semantisch reicher Texte in spärliche Kategorien an ihre Leistungsgrenze stoßen, steigert das eLLM sowohl die Robustheit als auch die Genauigkeit der Klassifikation.
Mit einer vielfältigen Modellkonsortium erreicht das eLLM nahezu die Leistung menschlicher Experten. Diese skalierbare und zuverlässige Lösung könnte die Abhängigkeit von kostenintensivem Experten‑Labeling erheblich reduzieren und bietet damit einen vielversprechenden Ansatz für taxonomiebasierte Textklassifikationen in der Praxis.