UD Macedonian MTB
Language: Macedonian (code: mk
)
Family: Indo-European, Slavic
This treebank has been part of Universal Dependencies since the UD v2.13 release.
The following people have contributed to making this treebank part of UD: Vladimir Cvetkoski.
Repository: UD_Macedonian-MTB
Search this treebank on-line: PML-TQ
Download all treebanks: UD 2.13
License: CC BY-SA 4.0
Genre: grammar-examples
Questions, comments? General annotation questions (either Macedonian-specific or cross-linguistic) can be raised in the main UD issue tracker. You can report bugs in this treebank in the treebank-specific issue tracker on Github. If you want to collaborate, please contact [cvetkoski (æt) flf • ukim • edu • mk]. Development of the treebank happens directly in the UD repository, so you may submit bug fixes as pull requests against the dev branch.
Annotation | Source |
---|---|
Lemmas | annotated manually |
UPOS | annotated manually, natively in UD style |
XPOS | not available |
Features | annotated manually, natively in UD style |
Relations | annotated manually, natively in UD style |
Description
The Macedonian-MTB treebank is a collection of annotated sentences based on the raw monolingual corpus called Macedonian Language Digital Resources (MLDR).
The Macedonian-MTB treebank is a collection of annotated sentences based on the raw monolingual corpus called Macedonian Language Digital Resources - MLDR, a.k.a 135 Volumes of Macedonian Literature, published by the Macedonian Academy of Sciences and Arts under the CC Attribution-NonCommercial 4.0 International License. The treebank consists mainly of literary and a few non-fiction texts.
- A description of the treebank and its origin (creation method, data sources, etc.)
- A description of how the data was split into training, development and test sets
- If there are multiple genres/domains, can they be told apart by sentence ids? Does the treebank consist of complete documents, or just randomly shuffled sentences?
- Acknowledgments and references that should be cited when using the treebank
- A changelog section for treebanks that will be released for the second (or subsequent) time. …
Acknowledgments
…
References
Statistics of UD Macedonian MTB
POS Tags
ADJ – ADP – ADV – AUX – CCONJ – DET – INTJ – NOUN – NUM – PART – PRON – PROPN – PUNCT – SCONJ – VERB
Features
Aspect – Case – Definite – Degree – Gender – Gender[psor] – Mood – Number – Number[psor] – NumType – Person – Polarity – Poss – PronType – Reflex – Tense – VerbForm – Voice
Relations
acl – acl:relcl – advcl – advmod – amod – appos – aux – aux:pass – case – cc – ccomp – conj – cop – csubj – det – discourse – expl – expl:pv – fixed – flat – iobj – list – mark – nmod – nmod:poss – nsubj – nsubj:pass – nummod – obj – obl – orphan – parataxis – punct – reparandum – root – vocative – xcomp
Tokenization and Word Segmentation
- This corpus contains 155 sentences and 1360 tokens.
- This corpus contains 217 tokens (16%) that are not followed by a space.
- This corpus does not contain words with spaces.
- This corpus contains 1 types of words that contain both letters and punctuation. Examples: вле-
Morphology
Tags
- This corpus uses 15 UPOS tags out of 17 possible: ADJ, ADP, ADV, AUX, CCONJ, DET, INTJ, NOUN, NUM, PART, PRON, PROPN, PUNCT, SCONJ, VERB
- This corpus does not use the following tags: SYM, X
- This corpus contains 6 word types tagged as particles (PART): да, дека, ли, не, нека, ниту
- This corpus contains 40 lemmas tagged as pronouns (PRON): ви, ги, го, им, каде, каков, кој, којшто, ме, мене, ми, му, нè, нас, него, негов, неколку, нему, нешто, ни, нив, ние, ништо, нѐ, сè, се, си, сиот, сите, сѐ, таа, те, ти, тие, тоа, тој, што, ја, јас, ѝ
- This corpus contains 13 lemmas tagged as determiners (DET): еден, каков, мој, негов, некој, нејзин, ова, она, свој, такво, твој, тие, тоа
- Out of the above, 4 lemmas occurred sometimes as PRON and sometimes as DET: каков, негов, тие, тоа
- This corpus contains 5 lemmas tagged as auxiliaries (AUX): би, биде, нема, сум, ќе
- Out of the above, 1 lemmas occurred sometimes as AUX and sometimes as VERB: нема
- There are 2 (de)verbal forms:
- Fin
- AUX: е, беше, ќе, бев, биде, сте, Бевме, Сум, би, бидат
- VERB: дојде, облеков, студеше, сакам, јави, Мислам, дојдеш, воодушеви, гледав, дојди
- Part
- ADJ: одбрани, случено
- AUX: бил
- VERB: одземен, виделе, возбуден, гледал, испорачано, казнет, можел, напишал, оставил, прочитана
Nominal Features
- Fem
- ADJ: голема, нова, учебната, добра, мала, мила, минатата, првата, убава
- DET: Оваа, една, некоја, нејзиниот
- NOUN: јакна, година, авантури, бронза, книгата, колата, пари, снимка, собата, торта
- NUM: една
- PRON: ја, Таа, сите, ѝ
- PROPN: Мери, Марија, Џејн, Браун, Франција
- VERB: јакна, прочитана
- VERB-Part: прочитана
- Masc
- ADJ: утрешниот, вознемирен, главниот, дрзок, зелениот, кинески, минатиот, незадоволен, позабавен, познат
- AUX-Part: бил
- DET: мојот, каков, неговиот, својот, твојот
- NOUN: Натпреварот, крајот, автомобил, дена, испитот, компјутерот, облаците, професорот, син, сладолед
- NUM: два
- PRON: го, му, Тој, кој, Неговата, каков, којшто, него, нему, јас
- PROPN: Петар, Јован, Марко, Бетовен, Вардар, Лудвиг, Париз, Сем, Смит, Тинекс
- VERB-Part: одземен, возбуден, гледал, казнет, можел, напишал, оставил, совладан
- Neut
- ADJ: добро, корисно, одлично, прекрасно, светлото, слободно, случено
- ADJ-Part: случено
- DET: она, Ова, такво, тоа
- NOUN: кино, Детето, дете, злато, место, писмо, Луѓето, Сонцето, време, времето
- PRON: тоа, го, којшто, Што, нешто, ништо
- PROPN: Игуацу
- VERB-Part: испорачано, случено
- Count
- NOUN: дена, авиона, филма
- Plur
- ADJ: глупави, долги, играни, нови, одбрани, последниве, презадоволни
- ADJ-Part: одбрани
- AUX-Fin: сте, Бевме, бидат, се, сме
- DET: моите, Тие, некои
- NOUN: авантури, облаците, пари, Колоните, автомобилите, богаташите, години, деца, децата, кучиња
- NUM: два, 15, неколку, пет, три
- PRON: тие, ги, ние, ви, нѐ, Им, Сѐ, нè, нас, неколку
- VERB-Fin: дојдат, забавуваат, играа, работиме, Влеговме, Гледавме, Живееме, Заработуваме, Одеа, Продадоа
- VERB-Part: виделе
- Sing
- ADJ: голема, нова, утрешниот, учебната, болен, вознемирен, главниот, добра, добро, дрзок
- ADJ-Part: случено
- AUX-Fin: е, беше, ќе, бев, биде, Сум, би, нема, немаше
- AUX-Part: бил
- DET: мојот, она, Ова, Оваа, една, каков, неговиот, некоја, нејзиниот, својот
- NOUN: јакна, година, Натпреварот, кино, крајот, Детето, Сонцето, автомобил, бронза, дете
- NUM: една
- PRON: го, ми, ја, ме, му, Тој, ти, тоа, Таа, кој
- PROPN: Петар, Мери, Јован, Марија, Марко, Џејн, Бетовен, Браун, Вардар, Игуацу
- VERB: дојде, облеков, сакам, јави, Мислам, дојдеш, студеше, воодушеви, гледав, дојди
- VERB-Fin: дојде, облеков, сакам, јави, Мислам, дојдеш, студеше, воодушеви, гледав, дојди
- VERB-Part: одземен, возбуден, гледал, испорачано, казнет, можел, напишал, оставил, прочитана, случено
- Acc
- PRON: го, се, ја, ме, ги, нѐ, Сѐ, Што, мене, нè
- Dat
- PRON: ми, му, ти, ви, си, Им, ме, нему, ни, ѝ
- Nom
- DET: она, Оваа, некои, тоа
- PRON: тие, Тој, ние, тоа, Таа, кој, којшто, Јас, нешто
- Def
- ADJ: утрешниот, учебната, главниот, минатата, минатиот, нова, последниве, првата, прекрасно, расипаниот
- DET: моите, мојот, нејзиниот, својот, твојот
- NOUN: Натпреварот, Детето, Рим, Сонцето, книгата, колата, облаците, собата, филмот, Девојката
- PRON: го, тие, Ние, Неговата, Таа, Тој, којшто, сите, ја
- Ind
- ADJ: голема, болен, вознемирен, глупави, добра, добро, долги, дрзок, зелениот, играни
- ADJ-Part: одбрани, случено
- DET: една, некоја
- NOUN: јакна, година, кино, авантури, автомобил, бронза, дете, компјутерот, крајот, место
- NUM: два, 15, една, неколку, пет, три
- PRON: Сѐ, неколку, нешто, ништо, јас
- PROPN: Јован, Марија, Марко, Бетовен, Вардар, Лудвиг, Петар, Тинекс
- VERB: одземен, јакна, возбуден, гледал, испорачано, казнет, можел, оставил, прочитана, совладан
- VERB-Part: одземен, возбуден, гледал, испорачано, казнет, можел, оставил, прочитана, совладан
Degree and Polarity
- Abs
- ADJ: презадоволни
- Cmp
- ADJ: позабавен, расипаниот
- Pos
- ADJ: голема, нова, утрешниот, учебната, болен, вознемирен, главниот, глупави, добра, добро
- ADV: вчера, многу, овде, Јасно, бесплатно, дента, добро, дома, единствено, пак
- Sup
- ADV: пребрзо
- Neg
- PART: не, ниту
Verbal Features
- Imp
- AUX-Fin: е, беше, бев, сте, Сум, би, бидат, нема, немаше, се
- AUX-Part: бил
- VERB-Fin: студеше, сакам, Мислам, гледав, може, врне, доаѓа, забавуваат, заспива, играа
- VERB-Part: гледал, можел
- Perf
- ADJ-Part: одбрани, случено
- AUX-Fin: биде, Бевме, беше
- VERB-Fin: дојде, облеков, јави, воодушеви, дојдеш, купи, направи, Влегов, даде, дојди
- VERB-Part: одземен, виделе, возбуден, испорачано, казнет, напишал, оставил, прочитана, случено, совладан
- Cnd
- AUX-Fin: би
- VERB-Fin: студеше
- Imp
- VERB-Fin: дојди, направи, јави, купи, Оди, Подготви, Сврти, отвори, поништив, посматрав
- Ind
- AUX-Fin: е, беше, ќе, бев, биде, сте, Бевме, Сум, бидат, нема
- AUX-Part: бил
- VERB-Fin: дојде, облеков, сакам, Мислам, дојдеш, студеше, воодушеви, гледав, може, Влегов
- VERB-Part: виделе, напишал
- Int
- VERB-Fin: Знаеш
- Fut
- VERB-Fin: договориме, дојдат, купам, паднеш, положиш
- Imp
- AUX-Fin: беше, немаше
- VERB-Fin: студеше, Гледавме, Одеа, Требаше, Учев, криеше, мачеше, можеа, можев, навивавме
- Past
- AUX-Fin: беше, Бев, Бевме, би
- VERB-Fin: облеков, воодушеви, дојде, Влегов, гледав, даде, направи, освои, отидов, рече
- VERB-Part: виделе, гледал, можел, напишал, оставил
- Pres
- AUX-Fin: е, ќе, биде, бев, сте, Сум, бидат, нема, се, сме
- VERB-Fin: дојде, сакам, Мислам, дојдеш, дојди, може, јави, врне, доаѓа, забавуваат
- Act
- AUX-Fin: е, беше, бев, биде, сте, Бевме, Сум, бидат, нема, немаше
- AUX-Part: бил
- VERB-Fin: дојде, облеков, студеше, сакам, Мислам, дојдеш, јави, воодушеви, гледав, дојди
- VERB-Part: виделе, гледал, можел, напишал, оставил, случено
- Pass
- ADJ-Part: одбрани, случено
- VERB-Part: одземен, возбуден, испорачано, казнет, прочитана, совладан
Pronouns, Determiners, Quantifiers
- Dem
- ADV: Таму, така, тогаш, туку, толкава, толку
- DET: она, Ова, Оваа, Тие, тоа
- PRON: тоа
- Ind
- DET: една, некои, некоја
- PRON: неколку, нешто
- Int
- ADV: кога, како, каде, колкава, колку
- DET: каков, такво
- PRON: кој, Што
- Neg
- ADV: никогаш
- PRON: ништо
- Prs
- DET: моите, мојот, неговиот, нејзиниот, својот, твојот
- PRON: се, го, ми, ја, ме, му, тие, Тој, ти, ги
- Rel
- ADV: како
- PRON: којшто, Кој, каков
- Tot
- PRON: Сѐ, сите
- Card
- ADV: колкава, колку, толкава, толку
- NUM: два, 15, една, неколку, пет, три
- Yes
- DET: моите, мојот, неговиот, нејзиниот, својот, твојот
- PRON: Неговата, ми, му
- Yes
- DET: својот
- PRON: се, си, сè
- 1
- AUX-Fin: бев, Бевме, Сум, е, сме
- DET: моите, мојот
- PRON: ми, ме, ние, нѐ, Јас, мене, нè, нас, ни
- VERB-Fin: облеков, сакам, Мислам, гледав, Влегов, воодушеви, купам, немам, одам, положив
- 2
- AUX-Fin: сте
- DET: твојот
- PRON: ти, ви, те
- VERB-Fin: дојдеш, дојди, јави, купи, можеш, сакаш, Знаеш, Оди, Сврти, гледаш
- VERB-Part: виделе
- 3
- AUX-Fin: е, беше, биде, ќе, би, бидат, нема, немаше, се
- DET: неговиот, нејзиниот
- PRON: го, ја, му, тие, Тој, ги, Таа, Им, Неговата, којшто
- VERB-Fin: дојде, студеше, може, врне, даде, доаѓа, дојдат, забавуваат, заспива, играа
- VERB-Part: напишал, случено
- Masc
- DET: неговиот
- Sing
- DET: неговиот
Other Features
Syntax
Auxiliary Verbs and Copula
- This corpus uses 1 lemmas as copulas (cop). Examples: сум.
- This corpus uses 4 lemmas as auxiliaries (aux). Examples: ќе, нема, сум, би.
- This corpus uses 2 lemmas as passive auxiliaries (aux:pass). Examples: биде, сум.
Core Arguments, Oblique Arguments and Adjuncts
Here we consider only relations between verbs (parent) and nouns or pronouns (child).
- nsubj
- VERB-Fin--NOUN (25)
- VERB-Fin--PRON (1)
- VERB-Fin--PRON-Nom (25)
- VERB-Part--NOUN (1)
- obj
- VERB-Fin--NOUN (56)
- VERB-Fin--NOUN-ADP(зад) (1)
- VERB-Fin--NOUN-ADP(на) (1)
- VERB-Fin--NOUN-ADP(по) (1)
- VERB-Fin--PRON (4)
- VERB-Fin--PRON-Acc (29)
- VERB-Fin--PRON-Nom (1)
- VERB-Part--NOUN (4)
- VERB-Part--PRON-Acc (1)
- iobj
- VERB-Fin--PRON-ADP(на) (1)
- VERB-Fin--PRON-Dat (19)
- VERB-Part--PRON-Dat (3)
Reflexive Verbs
- This corpus contains 9 lemmas that occur at least once with an expl:pv child. Examples: види се, врати се, забавува се, зафати се, купи си, посака се, разбира се, јави ми се, јави се
Verbs with Reflexive Core Objects
- This corpus contains 1 lemmas that occur at least once with a reflexive core object (obj or iobj). Examples: даде сè
Relations Overview
- This corpus uses 5 relation subtypes: acl:relcl, aux:pass, expl:pv, nmod:poss, nsubj:pass
- The following 5 relation types are not used in this corpus at all: dislocated, clf, compound, goeswith, dep