Málvinnsla Stofnun Árna Magnússonar í íslenskum fræðum

Um þessa vefsíðu

Málvinnsluvef Árnastofnunar má nota til að vinna úr texta á íslensku.
Tólin sem við gerum hér aðgengileg eru:

  • Tókari - Tokenizer frá Miðeind ehf
  • Markari - POS frá Cadia-LVL við Háskólann í Reykjavík
  • Lemmari - Nefnir eftir Jón Friðrik Daðason
  • Orðskiptingartól - Skiptir frá Stofnun Árna Magnússonar
Nánari lýsing á tólunum og virkni þeirra má finna hér fyrir neðan.

Tókari

Heimild

Eitt af grunnskrefunum í allri málvinnslu með texta er að skipta textanum upp í einingar, yfirleitt setningar og tóka (e. tokens). Villur sem gerðar eru á þessu frumstigi gagnaundirbúnings halda sér áfram í gegnum allt vinnsluferlið. Tólið sem leysir þetta vandamál er kallað tókari, tilreiðari eða tókaþekkjari (e. tokenizer) .

Tókarinn sem hér er nýttur ber einfaldlega nafnið Tokenizer og er þróaður af Miðeind ehf. Hann er gefinn út sem Python pakki og aðgengilegur á Python Package Index (PyPI) Nánari upplýsingar um forritið má finna hér.

Markari

Heimild

Mörkunartól, eða málfræðilegir markarar (e. Part-of-Speech tagger), lesa inn texta og marka hvern tóka með textatreng sem segir til um orðflokk og t.d. fall, kyn og tíð, eftir því sem við á.

Hér er nýttur markarinn ABLTagger 3.0. Honum er viðhaldið af Mál- og raddtæknistofu Gervigreindarseturs HR (CADIA-LVL). Grundvöllur þessa tóls var tauganetsmarkarinn ABLTagger 1.0. Hann var upphaflega þróaður af Steinþóri Steingrímssyni, Örvari Kárasyni og Hrafni Loftssyni vorið 2019.

Lemmari

Heimild

Á þessari síður eru mörkuð orð send áfram á í lemmald, eða lemmara (e. lemmatizer). Lemmari les inn markaðan texta og lemmar hann, þ.e. skráir uppflettimynd (lemmu) við hvert orð (t.d. hestur fyrir hests).

Lemmur orða eru sóttar með Nefni, sem var þróaður af Jóni Friðriki Daðasyni.

Orðskiptingartól

Heimild

Skiptir er skipalanínutól sem færir inn skiptingar á orðum í texta.

Málgreiningartól