LLM-Modelle im Unternehmen: Benchmark zeigt, wie robust sie wirklich sind

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Unternehmen setzen zunehmend auf große Sprachmodelle (LLMs), um Prozesse zu automatisieren und Kundenservice zu verbessern. Damit diese Systeme zuverlässig funktionieren, muss ihre Leistung auch bei kleinen Änderungen in den Eingaben stabil bleiben.

Frühere Studien haben zwar gezeigt, dass schon minimale Prompt‑Variationen zu großen Ausgabenunterschieden führen können, jedoch konzentrierten sie sich meist auf wenige Störfaktoren und kleine Datensätze. Das machte die Erkenntnisse für reale Geschäftsanwendungen wenig greifbar.

Um diese Lücke zu schließen, wurde eine umfassende Benchmark-Suite entwickelt, die die Robustheit von LLMs gegen verschiedene Störungen prüft: von einfachen Textänderungen wie Interpunktion und Leerzeichen über Formatierungswechsel (JSON, YAML) bis hin zu mehrsprachigen und kreuzsprachigen Eingaben sowie Positionsänderungen in Anweisungen.

Die Bewertung umfasste elf Modelle mit 4 B bis über 120 B Parametern. Die Ergebnisse zeigen, dass selbst kleine Störungen die Leistung um bis zu 40 Prozentpunkte auf wichtigen Unternehmensmetriken senken können. Interessanterweise ist die Beziehung zwischen Modellgröße und Robustheit komplexer als angenommen: ein 8 B‑Modell (Ministral 3 8B) übertrifft viele größere Modelle, während ein anderes 8 B‑Modell (Llama 3.1 8B) die schlechteste Gesamtleistung erzielt.

Diese Erkenntnisse unterstreichen die Notwendigkeit, LLMs nicht nur nach ihrer Größe, sondern auch nach ihrer Stabilität gegenüber realen Eingabevariationen zu bewerten – ein entscheidender Faktor für die erfolgreiche Implementierung in Unternehmensumgebungen.

Ähnliche Artikel