Erster POS-Tagger für Nagamese: CRF erzielt 85,7 % Genauigkeit
In einem bahnbrechenden Beitrag zur Verarbeitung der Nagamese-Sprache – einem asamaischen Creole, das vor allem im Handelsverkehr zwischen den Naga-Volksgruppen und Assam im Nordosten Indiens verwendet wird – wurde erstmals ein Part-of-Speech-Tagger entwickelt. Das Team hat einen annotierten Korpus mit 16.112 Tokens erstellt und die Technik der Conditional Random Fields (CRF) eingesetzt.