Erstes kurdisches STS-Dataset veröffentlicht – 10.000 Satzpaare für NLP
In einem bedeutenden Schritt für die kurdische Sprachverarbeitung wurde das erste Dataset zur semantischen Textähnlichkeit (STS) für Kurdisch vorgestellt. Das neue Repertoire umfasst 10.000 Satzpaare, die sowohl formelle als auch informelle Register abdecken und sorgfältig hinsichtlich ihrer Bedeutungsähnlichkeit annotiert wurden.