Korpusi Nacional i Gjuhës Shqipe

Jeni në faqen kryesore e uebsajtit ku ndodhet Korpusi Nacional i Gjuhës Shqipe (angl. Albanian National Corpus, ANC) me më shumë se 30 milionë fjalë.

Korpusi është krijuar për njerëzit e interesuar për çështje të ndryshme që lidhen me gjuhën shqipe dhe mund t'u japë të dhënat referuese si gjuhëtarëve profesionistë ashtu edhe atyre që tregojnë interes për shqipen dhe historinë e saj për shkak të profesionit të tyre ose thjeshtë për kuriozitet. Materiali i grumbulluar në Korpus mund të përdoret për studime të ndryshme të leksikut dhe gramatikës shqipe, si dhe për hulumtimin e ndryshimeve gjuhësore që kanë ndodhur në shqipen gjatë shekujve të kaluar.

Nga viti 2012 e deri më tani, Korpusi Nacional i Gjuhës Shqipe është plotësuar kryesisht me tekstet origjinale në prozë (veprat letrare, joletrare, shtypi) që pasqyrojnë gjuhën letrare shqipe (që nga vitet 1970), si dhe tekstet e përkthyera dhe poezinë shqipe. Projekti ynë synon prezantimin sa më të gjerë jo vetëm të teksteve të shkruara bashkëkohore të zhanreve të ndryshme, por edhe teksteve të krijuara në periudha të ndryshme të historisë së shqipes, si dhe ligjërimit gojor dhe teksteve dialektore që përfaqësojnë format joletrare të gjuhës së sotme shqipe. Deri më tani, u hap në shtator 2019 dhe vazhdon të zhvillohet Korpusi i teksteve të vjetra shqipe.

Tekstet e Korpusit janë pajisur me anotimin metatekstual dhe anotimin morfologjik i cili përfshin shënimet (angl. tag) që i atribuohen secilës forme të fjalës në çdo tekst.

Anotimi

etiketimi morfologjik automatik (lematizimi, pjesët e ligjëratës, të gjitha veçoritë fjalëndryshuese), 93.9% të fjalëve kanë të paktën një analizëvetëm fjalët që nuk përmbajnë shifra ose shkronja të alfabeteve të tjera
homonimia gramatikore nuk është hequr në këtë etapë
paraqitja me glosa (angl. glossing)
përkthimi anglisht i leksemave

Anotimi metatekstual

titulli i tekstit
autori ose titulli i gazetës
viti i krijimit (ose data e saktë në rastin e gazetave)
zhanri / tipi i tekstit

Për korpuset

Tani dy korpuse janë të hapura për përdorim: Korpusi i gjuhës së sotme letrare shqipe («Korpusi kryesor») dhe Korpusi i teksteve të vjetra shqipe. Ata dallohen për llojet e teksteve dhe mënyrën e paraqitjes së tyre, por kanë të njëjtin sistem të anotimit dhe mundësitë identike të kërkimit. Këtu janë karakteristikat kryesore të tyre:

Korpusi kryesor

Korpusi kryesor përmban 31.12 millionë fjalë dhe përbëhet nga disa nënkorpuse:

	Shtypi	Veprat letrare	Veprat joletrare	Poezia
Madhësia	23.4 millionë fjalë (75.2% i Korpusit kryesor)	3.2 millionë fjalë (10.3% i Korpusit kryesor)	4.3 millionë fjalë (13.8% i Korpusit kryesor)	0.2 millionë fjalë (0.7% i Korpusit kryesor)
Tekstet	gazetat bashkëkohore të shqipes: Agjencia Telegrafike Shqiptare (botimi online, Shqipëria, 2016–2017) — 2.5 mln. fjalë Gazeta Shqiptare (Shqipëria, 2006–2007) — 1.9 mln. fjalë Panorama (Shqipëria, 2014–2017) — 8.7 mln. fjalë Zëri (Kosova, 2013) — 6.2 mln. fjalë Koha.mk (Maqedonia e Veriut, 2011–2013) — 4.1 mln. fjalë	tekstet autentike dhe të përkthyera: romane, novela, tregime, drama, libra për fëmijë (Shqipëria, Kosova, Maqedonia e Veriut, vitet 1960–2010)	tekstet autentike dhe të përkthyera: esetë, intervistat, letërkëmbimi, kujtimet, ditarët, shënimet: esetë dhe letërkëmbimi i L. Poradecit (vitet 1910–1940); esetë bashkëkohore, ditarët dhe kujtimet (Shqipëria, Kosova, Maqedonia e Veriut, vitet 1950–2010) — 1.05 mln. fjalë tekstet fetare: Bibla (Dhjata e Vjetër, përkthyer nga Shoqëria Biblike Shqiptare; Dhjata e re, përkthyer nga V. Dervishi), Kur'ani — 0.75 mln. fjalë tekstet shkencore dhe mësimore (shkencat shoqërore; Shqipëria, Kosova, vitet 2000–2010) — 1.9 mln. fjalë tekstet zyrtare (legislative dhe diplomatike; Shqipëria, Kosova, vitet 1990–2000) — 0.6 mln. fjalë	poezia shqipe e gjysmës së parë të shekullit XX (Asdreni, A.Z. Çajupi, Migjeni, F. Noli, L. Poradeci); poezia e Shqipërisë, Kosovës dhe Maqedonisë së Veriut, vitet 1950–2010
Varieteti gjuhësor	Në shumicën e rasteve, gjuha e shkruar standarde ose afër standardit. Në intevistat dhe citimet e sakta mund të hasen shembujt e të folurit dialektor.	Në shumicën e rasteve, gjuha e shkruar standarde ose afër standardit. Ligjërimi i karaktereve mund të përmbajë shembujt e të folurit dialektor ose të përfaqësojë stilizimin e gjuhës popullore.	Në shumicën e rasteve, gjuha e shkruar standarde ose afër standardit. Në tekstet e shkruara përpara viteve 1950 mund të përdoren variante të hershme të gjuhës letrare.	Në shumicën e rasteve, gjuha e shkruar standarde ose afër standardit. Në tekstet e krijuara përpara viteve 1950 mund të përdoren variante të hershme të gjuhës letrare.

Shtypi

Veprat letrare

Veprat joletrare

Poezia

Madhësia

23.4 millionë fjalë (75.2% i Korpusit kryesor)

3.2 millionë fjalë (10.3% i Korpusit kryesor)

4.3 millionë fjalë (13.8% i Korpusit kryesor)

0.2 millionë fjalë (0.7% i Korpusit kryesor)

Tekstet

gazetat bashkëkohore të shqipes:

Agjencia Telegrafike Shqiptare (botimi online, Shqipëria, 2016–2017) — 2.5 mln. fjalë
Gazeta Shqiptare (Shqipëria, 2006–2007) — 1.9 mln. fjalë
Panorama (Shqipëria, 2014–2017) — 8.7 mln. fjalë
Zëri (Kosova, 2013) — 6.2 mln. fjalë
Koha.mk (Maqedonia e Veriut, 2011–2013) — 4.1 mln. fjalë

tekstet autentike dhe të përkthyera: romane, novela, tregime, drama, libra për fëmijë (Shqipëria, Kosova, Maqedonia e Veriut, vitet 1960–2010)

tekstet autentike dhe të përkthyera:

esetë, intervistat, letërkëmbimi, kujtimet, ditarët, shënimet: esetë dhe letërkëmbimi i L. Poradecit (vitet 1910–1940); esetë bashkëkohore, ditarët dhe kujtimet (Shqipëria, Kosova, Maqedonia e Veriut, vitet 1950–2010) — 1.05 mln. fjalë
tekstet fetare: Bibla (Dhjata e Vjetër, përkthyer nga Shoqëria Biblike Shqiptare; Dhjata e re, përkthyer nga V. Dervishi), Kur'ani — 0.75 mln. fjalë
tekstet shkencore dhe mësimore (shkencat shoqërore; Shqipëria, Kosova, vitet 2000–2010) — 1.9 mln. fjalë
tekstet zyrtare (legislative dhe diplomatike; Shqipëria, Kosova, vitet 1990–2000) — 0.6 mln. fjalë

poezia shqipe e gjysmës së parë të shekullit XX (Asdreni, A.Z. Çajupi, Migjeni, F. Noli, L. Poradeci); poezia e Shqipërisë, Kosovës dhe Maqedonisë së Veriut, vitet 1950–2010

Varieteti gjuhësor

Në shumicën e rasteve, gjuha e shkruar standarde ose afër standardit.

Në intevistat dhe citimet e sakta mund të hasen shembujt e të folurit dialektor.

Në shumicën e rasteve, gjuha e shkruar standarde ose afër standardit.

Ligjërimi i karaktereve mund të përmbajë shembujt e të folurit dialektor ose të përfaqësojë stilizimin e gjuhës popullore.

Në shumicën e rasteve, gjuha e shkruar standarde ose afër standardit.

Në tekstet e shkruara përpara viteve 1950 mund të përdoren variante të hershme të gjuhës letrare.

Në shumicën e rasteve, gjuha e shkruar standarde ose afër standardit.

Në tekstet e krijuara përpara viteve 1950 mund të përdoren variante të hershme të gjuhës letrare.

Korpusi i teksteve të vjetra shqipe

Ky Korpus ka për të përfshirë monumentet kryesore të shkrimit shqip: tekstet e Gj. Buzukut, L. Matrëngës, P. Budit, F. Bardhit, P. Bogdanit, P. Mazrekut, Kanunin e Arbërisë, etj.

Për momentin, Korpusi i teksteve të vjetra përmban veprën e Lekë Matrëngës «E Mbsuame e Krështerë» (1592). Libri i Matrëngës është teksti i dytë më i madh i shkruar në gjuhën shqipe dhe i pari i shkruar në dialektin toskë.

Varianti që përdoret në Korpusin bazohet në të ashtuquajturin dorëshkrim А. Kemi përdorur transkriptimin e M. de Vaan-it, të bazuar në M. Sciambra. La «Dottrina cristiana» albanese di Luca Matranga (1964) dhe të publikuar online TITUS. I jemi mirënjohës M. de Vaan-it i cili na ka pajisur me versionin tekstual të transkriptimit. Gjatë përpunimit të tekstit, transkriptimi u verifikua duke përdorur botimet e tjera të librit, përfshirë edhe ato fototpike.

Artikujt

Në publikimet tona mund të gjeni më shumë informacion për Korpusin Nacional të Gjuhës Shqipe, përmbajtjen dhe zhvillimin e tij:

Morozova, Maria. Shënime për standardin morfologjik të Korpusit nacional të shqipes // Seminari Ndërkombëtar për Gjuhën, Letërsinë dhe Kulturën Shqiptare. Materialet e punimeve të Seminarit XXXI Ndërkombëtar për Gjuhën, Letërsinë dhe Kulturën Shqiptare: Prishtinë, 13–27 gusht 2012 / kryered. B. Rugova. Prishtinë: Universiteti i Prishtinës: Fakulteti i filologjisë, 2012. 31/1. F. 153–156.

Arkhangelskij, Timofej, Mikhail Daniel, Maria Morozova, Aleksandër Rusakov. Korpusi i gjuhës shqipe: drejtimet kryesore të punës // Shqipja dhe gjuhët e Ballkanit. Albanian and Balkan Languages. Konferencë e mbajtur më 10–11 dhjetor 2011 në Prishtinë / red. R. Ismajli. Prishtinë: ASHAK, 2012. F. 635-642.

Rusakov, Aleksandër, Maria Morozova. Korpusi i gjuhës shqipe: problemet dhe rezultatet // Studime për nder të Rexhep Ismajlit me rastin e 65-vjetorit të lindjes / red. B. Rugova. Prishtinë: Koha, 2012. F. 639–649.

Morozova, Maria, Alexander Rusakov, Marina Domosiletskaya. Albanskaya imennaya morfologiya v korpusnom predstavlenii: Natsionalnyj korpus albanskogo yazyka [Paraqitja e morfologjisë së emrit shqip në një korpus gjuhësor: Korpusi Nacional i Gjuhës Shqipe] // Albanskaya filologiya, balkanistika, problemy yazykoznaniya. К 100-letiyu so dnya rozhdeniya chlena-korrespondenta RAN Agnii Vasiliyevny Desnitskoj / red. А. Kh. Girfanova, М. V. Domosiletskaya, А. V. Zhugra, N. N. Kazansky, А. Yu. Rusakov, N. L. Sukhachev. SPb: Nauka, 2013. S. 120–130.

Morozova, Maria, Alexander Rusakov. Korpusi elektronik i shqipes: përpunimi, përmbajtja dhe përdorimi // Seminari Ndërkombëtar për Gjuhën, Letërsinë dhe Kulturën Shqiptare. Materialet e punimeve të Seminarit XXXII Ndërkombëtar për Gjuhën, Letërsinë dhe Kulturën Shqiptare: Prishtinë, 19–30.08.2013 / kryered. B. Rugova. Prishtinë: Universiteti i Prishtinës: Fakulteti i filologjisë, 2014. 33/1. F. 85-96.

Morozova, Maria, Alexander Rusakov. Korpusi Nacional i Gjuhës Shqipe: Composition, Text Processing and Corpus-Oriented Grammar Development // Sprache und Kultur der Albaner. Zeitliche und räumliche Dimensionen. Akten der 5. Deutsch-albanischen kulturwissenschaftlichen Tagung (5.–8. Juni 2014, Buçimas bei Pogradec, Albanien) / Hrsg. von B. Demiraj. Wiesbaden: Harrassowitz Verlag, 2015. (Albanische Forschungen, 37). S. 270-308.

Morozova, Maria, Timofey Arkhangelsky, Mikhail Daniel, Alexander Rusakov. Albanskij natsionalnyj korpus: osnovnye napravleniya raboty [Korpusi Nacional i Gjuhës Shqipe: Drejtimet kryesore të punës] // Acta Linguistica Petropolitana. Trudy Instituta lingvisticheskikh issledovanij RAN / otv. red. N. N. Kazansky. SPb: Nauka, 2016. Т. XII, Ch. 3. S. 169–189.

Si të citoni Korpusin

Nëse ju keni përdorur informacionet dhe shembujt nga Korpusi Nacional i Gjuhës Shqipe në studimin tuaj, ju lutemi të përdorni linkun e mëposhtëm:

Maria Morozova, Aleksandër Rusakov, Timofej Arkhangelskij. Korpusi Nacional i Gjuhës Shqipe. (URL: albanian.web-corpora.net, data e aksesit .)

Tagset-i

Veçoritë gramatikore të fjalëve në Korpus shënohen me etiketa të shkurtra, ose tag-ët. Këtu është lista e plotë e tag-ëve të përdorur në Korpusin Nacional të Gjuhës Shqipe, e renditur sipas alfabetit. Të dy korpuset kanë etiketimin identik.

A — mbiemër
ADV — ndajfolje
ART — nyjë
CLIT_PRO — trajta e shkurtër e përemrit
CONJ — lidhëz
FORM — ndajshtesë
INTJ — pasthirrmë
NOUN — emër
NUM — numëror
PART — pjesëz
PR — parafjalë
PRO — përemër
V — folje
VB_PART — pjesëz foljore
1 — veta e parë
2 — veta e dytë
3 — veta e tretë
abl — rasa rrjedhore
abl2 — rasa rrjedhore 2
acc — rasa kallëzore
acc_1pl — trajta e shkurtër e rasës kallëzore veta e parë shumës
acc_1sg — trajta e shkurtër e rasës kallëzore veta e parë njëjës
acc_2pl — trajta e shkurtër e rasës kallëzore veta e dytë shumës
acc_2sg — trajta e shkurtër e rasës kallëzore veta e dytë njëjës
acc_3pl — trajta e shkurtër e rasës kallëzore veta e tretë shumës
acc_3sg — trajta e shkurtër e rasës kallëzore veta e tretë njëjës
act — diateza veprore
adm — mënyra habitore
anim — emër frymor
aor — koha e kryer e thjeshtë
cont — pozita kontakte e nyjës
dat_1pl — trajta e shkurtër e rasës dhanore veta e parë shumës
dat_1sg — trajta e shkurtër e rasës dhanore veta e parë njëjës
dat_2pl — trajta e shkurtër e rasës dhanore veta e dytë shumës
dat_2sg — trajta e shkurtër e rasës dhanore veta e dytë njëjës
dat_3pl — trajta e shkurtër e rasës dhanore veta e tretë shumës
dat_3sg — trajta e shkurtër e rasës dhanore veta e tretë njëjës
def — trajta e shquar
dist — pozita distante e nyjës
f — gjinia femërore
gen_dat — rasa gjinore-dhanore
Gheg — leksema ose forma e gegërishtes
imp — mënyra urdhërore
inanim — emër jofrymor
ind — mënyra dëftore
indef — trajta e pashquar
ipf — koha e pakryer
loc — rasa vendore
m — gjinia mashkullore
med — folja mediale
mf — emër ambigjen
n — gjinia asnjanëse
nom — rasa emërore
nonst — leksema ose forma jostandarde
opt — mënyra dëshirore
pass — diateza joveprore
pl — numër shumës
pres — koha e tashme
ptcp — pjesore
sbjv — mënyra lidhore
sg — numër njëjës
unmkd — rasa "zero"
vi — folja jokalimtare
vt — folja kalimtare
with_abl — parafjala përdoret me rasën rrjedhore
with_acc — parafjala përdoret me rasën kallëzore
with_loc — parafjala përdoret me rasën vendore
with_nom — parafjala përdoret me rasën emërore

Autorët

Korpusi u zhvillua si rezultat i përpjekjeve të përbashkëta të gjuhëtarëve nga Sankt-Petërburgu (Instituti i Studimeve Linguistike i Akademisë së Shkencave të Rusisë, ISL AShR) dhe Moska (Shkolla e Linguiatikës pranë Shkollës së Lartë të Ekonomisë, ShLE).

Versioni i mëparshëm ka përdorur platformën e kërkimit të Korpusit Nacional të Armenishtes Lindore (angl. Eastern Armenian National Corpus, EANC). Versioni aktual i Korpusit të shqipes përdor analizuesin morfologjik dhe platformën tsakorpus, të krijuar nga Timofej Arkhangelskij.

Idetë kryesore në lidhje me përfaqësimin e gramatikës shqipe në korpus, zhvillimin e anotimit metatekstual dhe gramatikor u përkasin Maria Morozovës dhe Aleksandër Rusakovit. Timofej Arkhangelskij dhe Mikhail Danieli morën pjesë në diskutimin e këtyre çështjeve.

Në përpunimin e Korpusit të Gjuhës Shqipe morën pjesë:

Maria Morozova, Sankt-Petërburg (përfaqësimi i gramatikës shqipe në korpus, anotimi gramatikor, anotimi metatekstual, fjalori i Korpusit, grumbullimi dhe përpunimi i teksteve)
Aleksandër Rusakov, Sankt-Petërburg (përfaqësimi i gramatikës shqipe në korpus, grumbullimi dhe përpunimi i teksteve)
Timofej Arkhangelskij, Moskë — Hamburg (krijimi i analizuesit morfologjik, platformës së Korpusit dhe interfejsit të ueb-faqes, mbështetja teknike)
Marina Domosileckaja, Sankt-Petërburg (përpunimi i fjalorit të Korpusit — emrat)
Anna Konovalenko, Sankt-Petërburg (përpunimi i fjalorit të Korpusit — ndajfoljet)
Anastasia Sidko, Sankt-Petërburg (përpunimi i fjalorit të Korpusit — emrat, mbiemrat, foljet)
Daria Alekseeva, Sankt-Petërburg (grumbullimi dhe përpunimi i teksteve)
Elizabetë Atakova, Sankt-Petërburg (grumbullimi dhe përpunimi i teksteve)
Varvara Diveeva, Sankt-Petërburg (grumbullimi dhe përpunimi i teksteve)
Maksim Makarcev, Moskë — Oldenburg (përzgjedhja e teksteve)
Besim Kabashi, Mynih (përzgjedhja i teksteve)
Qerim Ondozi, Prishtinë (grumbullimi dhe përpunimi i teksteve)

Ekipa e Korpusit Nacional të Gjuhës Shqipe i është mirënjohëse shtëpisë botuese «Onufri» (Tiranë) për ndihmën e tyre në përzgjedhjen e teksteve. Versioni i parë i Korpusi Nacional të Gjuhës Shqipe u krijua me mbështetjen financiare të Programit «Gjuhësia e korpuseve» prej Presidiumit të Akademisë së Shkencave të Rusisë. Versioni aktual i Korpusit përdor infrastrukturën e Shkollës së Linguistikës pranë ShLE.

Tani Korpusi zhvillohet dhe plotësohet nga:

Maria Morozova (ISL AShR, UShSt-P), morozovamaria86@gmail.com

Aleksandër Rusakov (ISL AShR, UShSt-P), ayurusakov@gmail.com

Timofej Arkhangelskij (Universiteti i Hamburgut), timarkh@gmail.com

Korpusi Nacional i Gjuhës Shqipe

Për korpuset

Korpusi kryesor

Korpusi i teksteve të vjetra shqipe

Artikujt

Si të citoni Korpusin

Tagset-i

Autorët

Kontaktet