CAPTURE-Benchmark enthüllt Schwächen großer LVLMs bei CAPTCHA

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Ein neues Benchmark namens CAPTURE (CAPTCHA for Testing Under Real-world Experiments) wurde entwickelt, um die Leistungsfähigkeit großer visueller Sprachmodelle (LVLMs) bei der Lösung von CAPTCHAs zu prüfen. Das Tool umfasst vier Haupttypen und 25 Unterkategorien von CAPTCHAs, die von 31 verschiedenen Anbietern stammen, und bietet damit eine umfassende, multidimensionale Bewertung.

CAPTURE zeichnet sich durch eine große Datenmenge, vielfältige Klassen und speziell angepasste Labels für LVLMs aus. Diese Eigenschaften schließen die Lücken, die in bisherigen Benchmarks offenblieben, und ermöglichen eine präzisere Analyse der Stärken und Schwächen der Modelle.

Die ersten Tests mit dem Benchmark zeigen, dass aktuelle LVLMs bei der Lösung von CAPTCHAs deutlich schlechter abschneiden als erwartet. Diese Ergebnisse unterstreichen die Notwendigkeit weiterer Forschung und Optimierung, um die praktischen Einsatzmöglichkeiten dieser Modelle zu verbessern.

Ähnliche Artikel