Korpusi Nacional i Gjuhës Shqipe


Mirësevini në faqen e Korpusit Nacional të Gjuhës Shqipe, në të cilin përfshihen: Korpusi kryesor i gjuhës letrare shqipe (nga vitet 1970 deri më tani) dhe Korpusi i teksteve të vjetra shqipe.

Detajet Te Korpusi kryesor Te Korpusi i teksteve të vjetra shqipe

Korpusi Nacional i Gjuhës Shqipe

Rregulloni navigimin

Jeni në faqen kryesore e uebsajtit ku ndodhet Korpusi Nacional i Gjuhës Shqipe (angl. Albanian National Corpus, ANC) me më shumë se 30 milionë fjalë.

Korpusi është krijuar për njerëzit e interesuar për çështje të ndryshme që lidhen me gjuhën shqipe dhe mund t'u japë të dhënat referuese si gjuhëtarëve profesionistë ashtu edhe atyre që tregojnë interes për shqipen dhe historinë e saj për shkak të profesionit të tyre ose thjeshtë për kuriozitet. Materiali i grumbulluar në Korpus mund të përdoret për studime të ndryshme të leksikut dhe gramatikës shqipe, si dhe për hulumtimin e ndryshimeve gjuhësore që kanë ndodhur në shqipen gjatë shekujve të kaluar.

Nga viti 2012 e deri më tani, Korpusi Nacional i Gjuhës Shqipe është plotësuar kryesisht me tekstet origjinale në prozë (veprat letrare, joletrare, shtypi) që pasqyrojnë gjuhën letrare shqipe (që nga vitet 1970), si dhe tekstet e përkthyera dhe poezinë shqipe. Projekti ynë synon prezantimin sa më të gjerë jo vetëm të teksteve të shkruara bashkëkohore të zhanreve të ndryshme, por edhe teksteve të krijuara në periudha të ndryshme të historisë së shqipes, si dhe ligjërimit gojor dhe teksteve dialektore që përfaqësojnë format joletrare të gjuhës së sotme shqipe. Deri më tani, u hap në shtator 2019 dhe vazhdon të zhvillohet Korpusi i teksteve të vjetra shqipe.

Tekstet e Korpusit janë pajisur me anotimin metatekstual dhe anotimin morfologjik i cili përfshin shënimet (angl. tag) që i atribuohen secilës forme të fjalës në çdo tekst.

Anotimi

  • etiketimi morfologjik automatik (lematizimi, pjesët e ligjëratës, të gjitha veçoritë fjalëndryshuese), 93.9% të fjalëve kanë të paktën një analizëvetëm fjalët që nuk përmbajnë shifra ose shkronja të alfabeteve të tjera
  • homonimia gramatikore nuk është hequr në këtë etapë
  • paraqitja me glosa (angl. glossing)
  • përkthimi anglisht i leksemave

Anotimi metatekstual

  • titulli i tekstit
  • autori ose titulli i gazetës
  • viti i krijimit (ose data e saktë në rastin e gazetave)
  • zhanri / tipi i tekstit

Për korpuset

Tani dy korpuse janë të hapura për përdorim: Korpusi i gjuhës së sotme letrare shqipe («Korpusi kryesor») dhe Korpusi i teksteve të vjetra shqipe. Ata dallohen për llojet e teksteve dhe mënyrën e paraqitjes së tyre, por kanë të njëjtin sistem të anotimit dhe mundësitë identike të kërkimit. Këtu janë karakteristikat kryesore të tyre:

Korpusi kryesor

Korpusi kryesor përmban 31.12 millionë fjalë dhe përbëhet nga disa nënkorpuse:

Shtypi Veprat letrare Veprat joletrare Poezia
Madhësia 23.4 millionë fjalë (75.2% i Korpusit kryesor) 3.2 millionë fjalë (10.3% i Korpusit kryesor) 4.3 millionë fjalë (13.8% i Korpusit kryesor) 0.2 millionë fjalë (0.7% i Korpusit kryesor)
Tekstet

    gazetat bashkëkohore të shqipes:

  • Agjencia Telegrafike Shqiptare (botimi online, Shqipëria, 2016–2017) — 2.5 mln. fjalë
  • Gazeta Shqiptare (Shqipëria, 2006–2007) — 1.9 mln. fjalë
  • Panorama (Shqipëria, 2014–2017) — 8.7 mln. fjalë
  • Zëri (Kosova, 2013) — 6.2 mln. fjalë
  • Koha.mk (Maqedonia e Veriut, 2011–2013) — 4.1 mln. fjalë
tekstet autentike dhe të përkthyera: romane, novela, tregime, drama, libra për fëmijë (Shqipëria, Kosova, Maqedonia e Veriut, vitet 1960–2010)

    tekstet autentike dhe të përkthyera:

  • esetë, intervistat, letërkëmbimi, kujtimet, ditarët, shënimet: esetë dhe letërkëmbimi i L. Poradecit (vitet 1910–1940); esetë bashkëkohore, ditarët dhe kujtimet (Shqipëria, Kosova, Maqedonia e Veriut, vitet 1950–2010) — 1.05 mln. fjalë
  • tekstet fetare: Bibla (Dhjata e Vjetër, përkthyer nga Shoqëria Biblike Shqiptare; Dhjata e re, përkthyer nga V. Dervishi), Kur'ani — 0.75 mln. fjalë
  • tekstet shkencore dhe mësimore (shkencat shoqërore; Shqipëria, Kosova, vitet 2000–2010) — 1.9 mln. fjalë
  • tekstet zyrtare (legislative dhe diplomatike; Shqipëria, Kosova, vitet 1990–2000) — 0.6 mln. fjalë
poezia shqipe e gjysmës së parë të shekullit XX (Asdreni, A.Z. Çajupi, Migjeni, F. Noli, L. Poradeci); poezia e Shqipërisë, Kosovës dhe Maqedonisë së Veriut, vitet 1950–2010
Varieteti gjuhësor

Në shumicën e rasteve, gjuha e shkruar standarde ose afër standardit.

Në intevistat dhe citimet e sakta mund të hasen shembujt e të folurit dialektor.

Në shumicën e rasteve, gjuha e shkruar standarde ose afër standardit.

Ligjërimi i karaktereve mund të përmbajë shembujt e të folurit dialektor ose të përfaqësojë stilizimin e gjuhës popullore.

Në shumicën e rasteve, gjuha e shkruar standarde ose afër standardit.

Në tekstet e shkruara përpara viteve 1950 mund të përdoren variante të hershme të gjuhës letrare.

Në shumicën e rasteve, gjuha e shkruar standarde ose afër standardit.

Në tekstet e krijuara përpara viteve 1950 mund të përdoren variante të hershme të gjuhës letrare.

Korpusi i teksteve të vjetra shqipe

Ky Korpus ka për të përfshirë monumentet kryesore të shkrimit shqip: tekstet e Gj. Buzukut, L. Matrëngës, P. Budit, F. Bardhit, P. Bogdanit, P. Mazrekut, Kanunin e Arbërisë, etj.

Për momentin, Korpusi i teksteve të vjetra përmban veprën e Lekë Matrëngës «E Mbsuame e Krështerë» (1592). Libri i Matrëngës është teksti i dytë më i madh i shkruar në gjuhën shqipe dhe i pari i shkruar në dialektin toskë.

Varianti që përdoret në Korpusin bazohet në të ashtuquajturin dorëshkrim А. Kemi përdorur transkriptimin e M. de Vaan-it, të bazuar në M. Sciambra. La «Dottrina cristiana» albanese di Luca Matranga (1964) dhe të publikuar online TITUS. I jemi mirënjohës M. de Vaan-it i cili na ka pajisur me versionin tekstual të transkriptimit. Gjatë përpunimit të tekstit, transkriptimi u verifikua duke përdorur botimet e tjera të librit, përfshirë edhe ato fototpike.

Artikujt

Në publikimet tona mund të gjeni më shumë informacion për Korpusin Nacional të Gjuhës Shqipe, përmbajtjen dhe zhvillimin e tij:

Morozova, Maria. Shënime për standardin morfologjik të Korpusit nacional të shqipes // Seminari Ndërkombëtar për Gjuhën, Letërsinë dhe Kulturën Shqiptare. Materialet e punimeve të Seminarit XXXI Ndërkombëtar për Gjuhën, Letërsinë dhe Kulturën Shqiptare: Prishtinë, 13–27 gusht 2012 / kryered. B. Rugova. Prishtinë: Universiteti i Prishtinës: Fakulteti i filologjisë, 2012. 31/1. F. 153–156.

Arkhangelskij, Timofej, Mikhail Daniel, Maria Morozova, Aleksandër Rusakov. Korpusi i gjuhës shqipe: drejtimet kryesore të punës // Shqipja dhe gjuhët e Ballkanit. Albanian and Balkan Languages. Konferencë e mbajtur më 10–11 dhjetor 2011 në Prishtinë / red. R. Ismajli. Prishtinë: ASHAK, 2012. F. 635-642.

Rusakov, Aleksandër, Maria Morozova. Korpusi i gjuhës shqipe: problemet dhe rezultatet // Studime për nder të Rexhep Ismajlit me rastin e 65-vjetorit të lindjes / red. B. Rugova. Prishtinë: Koha, 2012. F. 639–649.

Morozova, Maria, Alexander Rusakov, Marina Domosiletskaya. Albanskaya imennaya morfologiya v korpusnom predstavlenii: Natsionalnyj korpus albanskogo yazyka [Paraqitja e morfologjisë së emrit shqip në një korpus gjuhësor: Korpusi Nacional i Gjuhës Shqipe] // Albanskaya filologiya, balkanistika, problemy yazykoznaniya. К 100-letiyu so dnya rozhdeniya chlena-korrespondenta RAN Agnii Vasiliyevny Desnitskoj / red. А. Kh. Girfanova, М. V. Domosiletskaya, А. V. Zhugra, N. N. Kazansky, А. Yu. Rusakov, N. L. Sukhachev. SPb: Nauka, 2013. S. 120–130.

Morozova, Maria, Alexander Rusakov. Korpusi elektronik i shqipes: përpunimi, përmbajtja dhe përdorimi // Seminari Ndërkombëtar për Gjuhën, Letërsinë dhe Kulturën Shqiptare. Materialet e punimeve të Seminarit XXXII Ndërkombëtar për Gjuhën, Letërsinë dhe Kulturën Shqiptare: Prishtinë, 19–30.08.2013 / kryered. B. Rugova. Prishtinë: Universiteti i Prishtinës: Fakulteti i filologjisë, 2014. 33/1. F. 85-96.

Morozova, Maria, Alexander Rusakov. Korpusi Nacional i Gjuhës Shqipe: Composition, Text Processing and Corpus-Oriented Grammar Development // Sprache und Kultur der Albaner. Zeitliche und räumliche Dimensionen. Akten der 5. Deutsch-albanischen kulturwissenschaftlichen Tagung (5.–8. Juni 2014, Buçimas bei Pogradec, Albanien) / Hrsg. von B. Demiraj. Wiesbaden: Harrassowitz Verlag, 2015. (Albanische Forschungen, 37). S. 270-308.

Morozova, Maria, Timofey Arkhangelsky, Mikhail Daniel, Alexander Rusakov. Albanskij natsionalnyj korpus: osnovnye napravleniya raboty [Korpusi Nacional i Gjuhës Shqipe: Drejtimet kryesore të punës] // Acta Linguistica Petropolitana. Trudy Instituta lingvisticheskikh issledovanij RAN / otv. red. N. N. Kazansky. SPb: Nauka, 2016. Т. XII, Ch. 3. S. 169–189.

Si të citoni Korpusin

Nëse ju keni përdorur informacionet dhe shembujt nga Korpusi Nacional i Gjuhës Shqipe në studimin tuaj, ju lutemi të përdorni linkun e mëposhtëm:

Maria Morozova, Aleksandër Rusakov, Timofej Arkhangelskij. Korpusi Nacional i Gjuhës Shqipe. (URL: albanian.web-corpora.net, data e aksesit .)

Tagset-i

Veçoritë gramatikore të fjalëve në Korpus shënohen me etiketa të shkurtra, ose tag-ët. Këtu është lista e plotë e tag-ëve të përdorur në Korpusin Nacional të Gjuhës Shqipe, e renditur sipas alfabetit. Të dy korpuset kanë etiketimin identik.

  • A — mbiemër
  • ADV — ndajfolje
  • ART — nyjë
  • CLIT_PRO — trajta e shkurtër e përemrit
  • CONJ — lidhëz
  • FORM — ndajshtesë
  • INTJ — pasthirrmë
  • NOUN — emër
  • NUM — numëror
  • PART — pjesëz
  • PR — parafjalë
  • PRO — përemër
  • V — folje
  • VB_PART — pjesëz foljore
  • 1 — veta e parë
  • 2 — veta e dytë
  • 3 — veta e tretë
  • abl — rasa rrjedhore
  • abl2 — rasa rrjedhore 2
  • acc — rasa kallëzore
  • acc_1pl — trajta e shkurtër e rasës kallëzore veta e parë shumës
  • acc_1sg — trajta e shkurtër e rasës kallëzore veta e parë njëjës
  • acc_2pl — trajta e shkurtër e rasës kallëzore veta e dytë shumës
  • acc_2sg — trajta e shkurtër e rasës kallëzore veta e dytë njëjës
  • acc_3pl — trajta e shkurtër e rasës kallëzore veta e tretë shumës
  • acc_3sg — trajta e shkurtër e rasës kallëzore veta e tretë njëjës
  • act — diateza veprore
  • adm — mënyra habitore
  • anim — emër frymor
  • aor — koha e kryer e thjeshtë
  • cont — pozita kontakte e nyjës
  • dat_1pl — trajta e shkurtër e rasës dhanore veta e parë shumës
  • dat_1sg — trajta e shkurtër e rasës dhanore veta e parë njëjës
  • dat_2pl — trajta e shkurtër e rasës dhanore veta e dytë shumës
  • dat_2sg — trajta e shkurtër e rasës dhanore veta e dytë njëjës
  • dat_3pl — trajta e shkurtër e rasës dhanore veta e tretë shumës
  • dat_3sg — trajta e shkurtër e rasës dhanore veta e tretë njëjës
  • def — trajta e shquar
  • dist — pozita distante e nyjës
  • f — gjinia femërore
  • gen_dat — rasa gjinore-dhanore
  • Gheg — leksema ose forma e gegërishtes
  • imp — mënyra urdhërore
  • inanim — emër jofrymor
  • ind — mënyra dëftore
  • indef — trajta e pashquar
  • ipf — koha e pakryer
  • loc — rasa vendore
  • m — gjinia mashkullore
  • med — folja mediale
  • mf — emër ambigjen
  • n — gjinia asnjanëse
  • nom — rasa emërore
  • nonst — leksema ose forma jostandarde
  • opt — mënyra dëshirore
  • pass — diateza joveprore
  • pl — numër shumës
  • pres — koha e tashme
  • ptcp — pjesore
  • sbjv — mënyra lidhore
  • sg — numër njëjës
  • unmkd — rasa "zero"
  • vi — folja jokalimtare
  • vt — folja kalimtare
  • with_abl — parafjala përdoret me rasën rrjedhore
  • with_acc — parafjala përdoret me rasën kallëzore
  • with_loc — parafjala përdoret me rasën vendore
  • with_nom — parafjala përdoret me rasën emërore

Autorët

Korpusi u zhvillua si rezultat i përpjekjeve të përbashkëta të gjuhëtarëve nga Sankt-Petërburgu (Instituti i Studimeve Linguistike i Akademisë së Shkencave të Rusisë, ISL AShR) dhe Moska (Shkolla e Linguiatikës pranë Shkollës së Lartë të Ekonomisë, ShLE).

Versioni i mëparshëm ka përdorur platformën e kërkimit të Korpusit Nacional të Armenishtes Lindore (angl. Eastern Armenian National Corpus, EANC). Versioni aktual i Korpusit të shqipes përdor analizuesin morfologjik dhe platformën tsakorpus, të krijuar nga Timofej Arkhangelskij.

Idetë kryesore në lidhje me përfaqësimin e gramatikës shqipe në korpus, zhvillimin e anotimit metatekstual dhe gramatikor u përkasin Maria Morozovës dhe Aleksandër Rusakovit. Timofej Arkhangelskij dhe Mikhail Danieli morën pjesë në diskutimin e këtyre çështjeve.

Në përpunimin e Korpusit të Gjuhës Shqipe morën pjesë:

  • Maria Morozova, Sankt-Petërburg (përfaqësimi i gramatikës shqipe në korpus, anotimi gramatikor, anotimi metatekstual, fjalori i Korpusit, grumbullimi dhe përpunimi i teksteve)
  • Aleksandër Rusakov, Sankt-Petërburg (përfaqësimi i gramatikës shqipe në korpus, grumbullimi dhe përpunimi i teksteve)
  • Timofej Arkhangelskij, Moskë — Hamburg (krijimi i analizuesit morfologjik, platformës së Korpusit dhe interfejsit të ueb-faqes, mbështetja teknike)
  • Marina Domosileckaja, Sankt-Petërburg (përpunimi i fjalorit të Korpusit — emrat)
  • Anna Konovalenko, Sankt-Petërburg (përpunimi i fjalorit të Korpusit — ndajfoljet)
  • Anastasia Sidko, Sankt-Petërburg (përpunimi i fjalorit të Korpusit — emrat, mbiemrat, foljet)
  • Daria Alekseeva, Sankt-Petërburg (grumbullimi dhe përpunimi i teksteve)
  • Elizabetë Atakova, Sankt-Petërburg (grumbullimi dhe përpunimi i teksteve)
  • Varvara Diveeva, Sankt-Petërburg (grumbullimi dhe përpunimi i teksteve)
  • Maksim Makarcev, Moskë — Oldenburg (përzgjedhja e teksteve)
  • Besim Kabashi, Mynih (përzgjedhja i teksteve)
  • Qerim Ondozi, Prishtinë (grumbullimi dhe përpunimi i teksteve)

Ekipa e Korpusit Nacional të Gjuhës Shqipe i është mirënjohëse shtëpisë botuese «Onufri» (Tiranë) për ndihmën e tyre në përzgjedhjen e teksteve. Versioni i parë i Korpusi Nacional të Gjuhës Shqipe u krijua me mbështetjen financiare të Programit «Gjuhësia e korpuseve» prej Presidiumit të Akademisë së Shkencave të Rusisë. Versioni aktual i Korpusit përdor infrastrukturën e Shkollës së Linguistikës pranë ShLE.

Tani Korpusi zhvillohet dhe plotësohet nga:

  • Maria Morozova (ISL AShR, UShSt-P), morozovamaria86@gmail.com
  • Aleksandër Rusakov (ISL AShR, UShSt-P), ayurusakov@gmail.com
  • Timofej Arkhangelskij (Universiteti i Hamburgut), timarkh@gmail.com
  • Kontaktet


    Nëse keni pyetje, dëshironi të propozoni bashkëpunim, ose keni vërejtur një gabim në Korpus, ju lutemi të na kontaktoni. Mund të përdorni gjithashtu analizuesin tonë morfologjik për shqipen dhe platformën tsakorpus që gjenden në akses të hapur dhe mind të shkarkohen për përdorim të lirë.

    morozovamaria86@gmail.com

    ayurusakov@gmail.com

    timarkh@gmail.com