Shona spaCy: Morphologischer Analyzer für die Bantusprache Shona

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Mit dem neuen Open‑Source‑Tool Shona spaCy wird die Bantusprache Shona endlich mit einer leistungsfähigen morphologischen Analyse ausgestattet. Das System, das auf dem beliebten spaCy‑Framework basiert, kombiniert ein sorgfältig kuratiertes JSON‑Lexikon mit sprachlich fundierten Regeln, um die komplexen Nomenklassen (Mupanda 1‑18), Verbalkonkordate, Zeit‑ und Aspektmarkierungen, Ideophone und Klitiken präzise zu modellieren.

Durch die Integration dieser Regeln in die Token‑Level‑Annotationen liefert Shona spaCy für jedes Wort Lemma, Wortart und detaillierte morphologische Merkmale. Das Toolkit ist über pip install shona-spacy verfügbar und steht unter GitHub sowie auf PyPI (shona-spacy/0.1.4) bereit.

Die Evaluation an formellen und informellen Shona‑Korpora zeigt beeindruckende Ergebnisse: 90 % Genauigkeit bei der Wortart‑Tagging und 88 % bei der morphologischen Feature‑Erkennung. Dabei bleibt das System transparent, da jede Regel nachvollziehbar aus der Grammatik abgeleitet ist.

Shona spaCy verbindet somit deskriptive Grammatik mit moderner Computerlinguistik und eröffnet Shona‑Sprechern neue Möglichkeiten der digitalen Inklusion. Gleichzeitig liefert es ein erprobtes Modell, das als Vorlage für die Entwicklung ähnlicher Werkzeuge für andere unterrepräsentierte Bantusprachen dienen kann.

Ähnliche Artikel