Málvinnsluvef Árnastofnunar má nota til að vinna úr texta á íslensku.
Tólin sem við gerum hér aðgengileg eru:
Eitt af grunnskrefunum í allri málvinnslu með texta er að skipta textanum upp í einingar, yfirleitt setningar og tóka (e. tokens). Villur sem gerðar eru á þessu frumstigi gagnaundirbúnings halda sér áfram í gegnum allt vinnsluferlið. Tólið sem leysir þetta vandamál er kallað tókari, tilreiðari eða tókaþekkjari (e. tokenizer) .
Tókarinn sem hér er nýttur ber einfaldlega nafnið Tokenizer og er þróaður af Miðeind ehf. Hann er gefinn út sem Python pakki og aðgengilegur á Python Package Index (PyPI) Nánari upplýsingar um forritið má finna hér.
Mörkunartól, eða málfræðilegir markarar (e. Part-of-Speech tagger), lesa inn texta og marka hvern tóka með textatreng sem segir til um orðflokk og t.d. fall, kyn og tíð, eftir því sem við á.
Hér er nýttur markarinn ABLTagger 3.0. Honum er viðhaldið af Mál- og raddtæknistofu Gervigreindarseturs HR (CADIA-LVL). Grundvöllur þessa tóls var tauganetsmarkarinn ABLTagger 1.0. Hann var upphaflega þróaður af Steinþóri Steingrímssyni, Örvari Kárasyni og Hrafni Loftssyni vorið 2019.
Á þessari síður eru mörkuð orð send áfram á í lemmald, eða lemmara (e. lemmatizer). Lemmari les inn markaðan texta og lemmar hann, þ.e. skráir uppflettimynd (lemmu) við hvert orð (t.d. hestur fyrir hests).
Lemmur orða eru sóttar með Nefni, sem var þróaður af Jóni Friðriki Daðasyni.
Skiptir er skipalanínutól sem færir inn skiptingar á orðum í texta.