Korpus

Allikas: Keeleteaduse wiki
Mine navigeerimisribale Mine otsikasti

Korpus – keeleuurimise aluseks olev korrastatud elektrooniliste tekstide kogu (Muischnek, Lindström 2020: 308).

Korpuste liigitus

  • Suletud korpus – kindla hulga tekstidega korpus, mis esindab tasakaalustatult ja representatiivselt ühe ajahetke või teatud tüüpi tekstide keelekasutust (Muischnek, Lindström 2020: 308–309).
  • Avatud korpus – pidevalt täienev korpus, mis ei taotle representatiivsust, vaid võimalikult suurt andmete hulka. Tänapäeval levinum variant kui suletud korpused. (Muischnek, Lindström 2020: 309–310)
  • Erikorpus – vanemat või kitsamalt piiritletud keelekasutust esindav korpus (nt murdekorpused, ajaloolise keele korpused, luulekorpused) (Muischnek, Lindström 2020: 310).
  • Suulise keele korpus – suulise keelekasutuse litereeringutest koosnev korpus (Muischnek, Lindström 2020: 310).
  • Multimodaalne korpus – korpus, mis sisaldab lisaks tekstidele ka audio- ja videomaterjali (Muischnek, Lindström 2020: 310).

Korpused eesti keele uurimiseks

Eesti keele ühendkorpus 2019

Eesti keele koondkorpus

Eesti Keele Instituudi tekstikorpus

Eesti kirjakeele korpus 1890–1990

Vana kirjakeele korpus

Murdekorpus

Suulise keele korpus

Emotsionaalse kõne korpus

Eesti piiblitõlke ajalooline konkordants

Eesti keele õppija korpus

Veebilausete korpus

Kasutatud kirjandus

Muischnek, Kadri, Liina Lindström 2020. Digitaalsed tekstiandmed ja korpuslingvistika. – Kuidas mõista andmestunud maailma? Metodoloogiline teejuht. Koost. ja toim. Anu Masso, Katrin Tiidenberg, Andra Siibak. Tallinn: Tallinna Ülikooli Kirjastus, 306–339