Албанский национальный корпус


Вы находитесь на стартовой странице Албанского национального корпуса, который в настоящее время включает в себя: корпус литературного албанского языка (от 1970-х годов до настоящего времени) и корпус старых письменных памятников.

Подробнее К основному корпусу К корпусу старых текстов

Албанский национальный корпус

Включить/выключить меню

Вы находитесь на стартовой странице сайта, на котором размещен Албанский национальный корпус (АНК) объемом 31,12 миллионов словоупотреблений.

Корпус предназначен для тех, кто интересуется самыми разными вопросами, связанными с албанским языком, и способен предоставить справочную информацию как профессиональным лингвистам, так и всем, кто в силу профессии или простой любознательности проявляет интерес к этому языку и его истории. Собранный материал может быть использован для научных исследований лексики и грамматики, а также для изучения процессов языковых изменений, происходивших в албанском языке на протяжении предшествующих столетий.

За период с 2012 года по настоящее время в Албанский национальный корпус были включены прежде всего прозаические оригинальные тексты (художественная литература, нехудожественные тексты, пресса), представляющие албанский литературный язык (начиная с 1970-х гг.), а также переводные тексты и албанская поэзия. Проект направлен на максимально широкое представление не только современных албанских письменных текстов разного жанра, но и текстов, созданных в разные периоды албанской языковой истории, а также устных разговорных и диалектных текстов, представляющих нелитературные формы современного албанского языка. К настоящему моменту открыт (сентябрь 2019 г.) и пополняется корпус старых письменных памятников.

Тексты АНК снабжены доступной пользователю метаразметкой и морфологической (словоизменительной) разметкой, которая представляет собой набор помет, приписываемых отдельным словоупотреблениям.

Разметка

  • автоматическая морфологическая разметка (лемматизация, часть речи, все словоизменительные категории), 93,9% словоформ имеют хотя бы один разборучитываются слова, не содержащие цифр и символов других алфавитов
  • омонимия на данном этапе не снималась
  • глоссирование
  • переводы лемм на английский язык

Метаданные

  • название текста
  • автор или название издания (в случае газет)
  • год создания (точная дата в случае газет)
  • жанр / тип текста

Характеристики корпусов

В настоящее время доступны два корпуса: корпус современного литературного албанского языка («основной корпус») и корпус старых письменных памятников. Они отличаются представленным в них материалом и способом его представления, но имеют в целом одинаковую разметку и поисковые возможности. Вот их характеристики:

Основной корпус

Основной корпус содержит 31,12 млн. словоупотреблений и включает в себя следующие подкорпуса:

Пресса Художественные тексты Нехудожественные тексты Поэзия
Размер 23,4 млн. слов (75,2% от всего корпуса) 3,2 млн. слов (10,3% от всего корпуса) 4,3 млн. слов (13,8% от всего корпуса) 0,2 млн. слов (0,7% от всего корпуса)
Тексты

    современные албаноязычные газеты:

  • Agjencia Telegrafike Shqiptare (онлайн-издание Албанского телеграфного агентства, Албания, 2016–2017 гг.) — 2,5 млн. слов
  • Gazeta Shqiptare (Албания, 2006–2007 гг.) — 1,9 млн. слов
  • Panorama (Албания, 2014–2017 гг.) — 8,7 млн. слов
  • Zëri (Косово, 2013 г.) — 6,2 млн. слов
  • Koha.mk (Северная Македония, 2011–2013 гг.) — 4,1 млн. слов
аутентичные и переводные художественные тексты: романы, повести, рассказы, пьесы, литература для детей (Албания, Косово, Северная Македония, 1960–2010-е гг.)

    аутентичные и переводные нехудожественные тексты:

  • эссе, интервью, эпистолярные тексты, мемуары, дневники, заметки: эссе и переписка Л. Порадеци (1910–1940-е гг.); современная эссеистика, дневниковая и мемуарная проза (Албания, Косово, Северная Македония, 1950–2010-е гг.) — 1,05 млн. слов
  • религиозные тексты: Библия (Ветхий Завет, пер. Албанского Библейского общества; Новый Завет, пер. В. Дервиши), Коран — 0,75 млн. слов
  • научные и учебные тексты (гуманитарные и общественные науки; Албания, Косово, 2000–2010-е гг.) — 1,9 млн. слов
  • официальные тексты (законодательные и дипломатические; Албания, Косово, 1990–2000-е гг.) — 0,6 млн. слов
поэзия Албании первой половины ХХ в. (творчество Асдрени, А. З. Чаюпи, Мигьени, Ф. Ноли, Л. Порадеци); поэзия Албании, Косово и Северной Македонии, 1950–2010-е гг.
Регистр языка

В большинстве случаев нормативный письменный литературный албанский или близкий к нему.

В интервью и цитатах встречаются образцы диалектной речи.

В большинстве случаев нормативный письменный литературный албанский или близкий к нему.

В речи персонажей встречаются образцы диалектной речи или стилизация под нее.

В большинстве случаев нормативный письменный литературный албанский или близкий к нему.

В текстах, созданных до 1950-х гг. — более ранние литературноязыковые варианты.

В большинстве случаев нормативный письменный литературный албанский или близкий к нему.

В поэтических текстах, созданных до 1950-х гг. — более ранние литературноязыковые варианты.

Корпус старых письменных памятников

Предполагается включить в корпус основные памятники албанской письменности: произведения Гь. Бузука, Л. Матранги, П. Буди, Ф. Барди, П. Богдани, П. Мазреку, Арберийский канун.

В настоящее время в Корпусе старых письменных памятников размещен текст «Катехизиса» Л. Матранги (1592). Книга Матранги представляет собой второй по времени крупный текст, написанный на албанском языке, и первый на тоскском диалекте.

Текст, размещенный в корпусе, базируется на так называемой рукописи А. При выкладке использована транскрипция М. де Фаана, основанная на M. Sciambra. La «Dottrina cristiana» albanese di Luca Matranga (1964) и доступная на TITUS. Мы выражаем М. де Фаану глубокую благодарность за предоставление текстового варианта своей транскрипции. При работе производилась сверка с другими изданиями катехизиса, в том числе фототипическими.

Публикации о Корпусе

Более подробную информацию о содержании Албанского национального корпуса и его разработке Вы можете найти в наших публикациях:

Morozova, Maria. Shënime për standardin morfologjik të Korpusit nacional të shqipes // Seminari Ndërkombëtar për Gjuhën, Letërsinë dhe Kulturën Shqiptare. Materialet e punimeve të Seminarit XXXI Ndërkombëtar për Gjuhën, Letërsinë dhe Kulturën Shqiptare: Prishtinë, 13–27 gusht 2012 / kryered. B. Rugova. Prishtinë: Universiteti i Prishtinës: Fakulteti i filologjisë, 2012. 31/1. F. 153–156.

Arkhangelskij, Timofej, Mikhail Daniel, Maria Morozova, Aleksandër Rusakov. Korpusi i gjuhës shqipe: drejtimet kryesore të punës // Shqipja dhe gjuhët e Ballkanit. Albanian and Balkan Languages. Konferencë e mbajtur më 10–11 dhjetor 2011 në Prishtinë / red. R. Ismajli. Prishtinë: ASHAK, 2012. F. 635-642.

Rusakov, Aleksandër, Maria Morozova. Korpusi i gjuhës shqipe: problemet dhe rezultatet // Studime për nder të Rexhep Ismajlit me rastin e 65-vjetorit të lindjes / red. B. Rugova. Prishtinë: Koha, 2012. F. 639–649.

Морозова, Мария Сергеевна, Александр Юрьевич Русаков, Марина Валентиновна Домосилецкая. Албанская именная морфология в корпусном представлении: Национальный корпус албанского языка // Албанская филология, балканистика, проблемы языкознания. К 100-летию со дня рождения члена-корреспондента РАН Агнии Васильевны Десницкой / ред. А. Х. Гирфанова, М. В. Домосилецкая, А. В. Жугра, Н. Н. Казанский, А. Ю. Русаков, Н. Л. Сухачев. СПб.: Наука, 2013. C. 120–130.

Morozova, Maria, Alexander Rusakov. Korpusi elektronik i shqipes: përpunimi, përmbajtja dhe përdorimi // Seminari Ndërkombëtar për Gjuhën, Letërsinë dhe Kulturën Shqiptare. Materialet e punimeve të Seminarit XXXII Ndërkombëtar për Gjuhën, Letërsinë dhe Kulturën Shqiptare: Prishtinë, 19–30.08.2013 / kryered. B. Rugova. Prishtinë: Universiteti i Prishtinës: Fakulteti i filologjisë, 2014. 33/1. F. 85-96.

Morozova, Maria, Alexander Rusakov. Albanian National Corpus: Composition, Text Processing and Corpus-Oriented Grammar Development // Sprache und Kultur der Albaner. Zeitliche und räumliche Dimensionen. Akten der 5. Deutsch-albanischen kulturwissenschaftlichen Tagung (5.–8. Juni 2014, Buçimas bei Pogradec, Albanien) / Hrsg. von B. Demiraj. Wiesbaden: Harrassowitz Verlag, 2015. (Albanische Forschungen, 37). S. 270-308.

Морозова, Мария Сергеевна, Тимофей Александрович Архангельский, Михаил Александрович Даниэль, Александр Юрьевич Русаков. Албанский национальный корпус: основные направления работы // Acta Linguistica Petropolitana. Труды Института лингвистических исследований РАН / отв. ред. Н. Н. Казанский. СПб.: Наука, 2016. Т. XII, ч. 3. С. 169–189.

Как цитировать Корпус

Если Вы используете данные Албанского национального корпуса в своём исследовании, воспользуйтесь, пожалуйста, следующей ссылкой:

Мария Сергеевна Морозова, Александр Юрьевич Русаков, Тимофей Александрович Архангельский. Албанский национальный корпус. (Доступно онлайн по адресу: albanian.web-corpora.net, дата обращения .)

Грамматические тэги

Грамматические значения при каждом слове указываются с помощью специальных помет — тэгов. Ниже приводится полный список используемых тэгов для албанского языка в алфавитном порядке с расшифровкой. Набор тэгов в обоих корпусах одинаков.

  • A — прилагательное
  • ADV — наречие
  • ART — артикль
  • CLIT_PRO — местоименная клитика
  • CONJ — союз
  • FORM — форматив
  • INTJ — междометие
  • NOUN — существительное
  • NUM — числительное
  • PART — частица
  • PR — предлог
  • PRO — местоимение
  • V — глагол
  • VB_PART — глагольная формообразующая частица
  • 1 — 1-е лицо
  • 2 — 2-е лицо
  • 3 — 3-е лицо
  • abl — аблатив
  • abl2 — аблатив 2
  • acc — аккузатив
  • acc_1pl — аккузативная клитика 1-го лица мн.ч.
  • acc_1sg — аккузативная клитика 1-го лица ед.ч.
  • acc_2pl — аккузативная клитика 2-го лица мн.ч.
  • acc_2sg — аккузативная клитика 2-го лица ед.ч.
  • acc_3pl — аккузативная клитика 3-го лица мн.ч.
  • acc_3sg — аккузативная клитика 3-го лица ед.ч.
  • act — активный залог
  • adm — адмиратив
  • anim — одушевленное существительное
  • aor — аорист
  • cont — контактная позиция артикля
  • dat_1pl — дативная клитика 1-го лица мн.ч.
  • dat_1sg — дативная клитика 1-го лица ед.ч.
  • dat_2pl — дативная клитика 2-го лица мн.ч.
  • dat_2sg — дативная клитика 2-го лица ед.ч.
  • dat_3pl — дативная клитика 3-го лица мн.ч.
  • dat_3sg — дативная клитика 3-го лица ед.ч.
  • def — определенная форма существительного
  • dist — дистантная позиция артикля
  • f — женский род
  • gen_dat — генитив-датив
  • Gheg — гегская лексема или словоформа
  • imp — императив
  • inanim — неодушевленное существительное
  • ind — индикатив
  • indef — неопределенная форма существительного
  • ipf — имперфект
  • loc — локатив
  • m — мужской род
  • med — медиальный глагол
  • mf — амбигенное существительное
  • n — средний род
  • nom — номинатив
  • nonst — нестандартная лексема или словоформа
  • opt — оптатив
  • pass — неактивный залог
  • pl — множественное число
  • pres — презенс
  • ptcp — причастие
  • sbjv — конъюнктив
  • sg — единственное число
  • unmkd — немаркированный падеж
  • vi — непереходный глагол
  • vt — переходный глагол
  • with_abl — предлог управляет аблативом
  • with_acc — предлог управляет аккузативом
  • with_loc — предлог управляет локативом
  • with_nom — предлог управляет номинативом

Авторы

Корпус создан в результате творческого содружества санкт-петербургских (Институт лингвистических исследований РАН) и московских лингвистов (Школа лингвистики НИУ ВШЭ).

Для предыдущей версии корпуса была адаптирована поисковая система Восточноармянского национального корпуса (ВАНК). В текущей версии используются морфологический анализатор и корпусная платформа tsakorpus, разработанные Т. А. Архангельским.

Основные идеи по созданию корпуса, разработке корпусного представления албанской грамматики, системы метаразметки и грамматической аннотации принадлежат М. С. Морозовой и А. Ю. Русакову. В обсуждении этих проблем принимали активное участие Т. А. Архангельский и М. А. Даниэль.

В разработке корпуса участвовали:

  • Мария Сергеевна Морозова, Санкт-Петербург (корпусное представление албанской грамматики, грамматическая разметка, метатекстовая разметка, словник корпуса, сбор и обработка текстов)
  • Александр Юрьевич Русаков, Санкт-Петербург (корпусное представление албанской грамматики, сбор и обработка текстов)
  • Тимофей Александрович Архангельский, Москва — Гамбург (разработка морфологического анализатора и корпусной платформы и пользовательского интерфейса корпуса, техническая поддержка)
  • Марина Валентиновна Домосилецкая, Санкт-Петербург (составление словника корпуса — имена существительные)
  • Анна Вадимовна Коноваленко, Санкт-Петербург (составление словника корпуса — наречия)
  • Анастасия Геннадьевна Сидько, Санкт-Петербург (составление словника корпуса — имена существительные, прилагательные, глаголы)
  • Дарья Александровна Алексеева, Санкт-Петербург (сбор и обработка текстов)
  • Елизавета Алексеевна Атакова, Санкт-Петербург (сбор и обработка текстов)
  • Варвара Андреевна Дивеева, Санкт-Петербург (сбор и обработка текстов)
  • Максим Максимович Макарцев, Москва — Ольденбург (предоставление текстов для корпуса)
  • Бесим Кабаши, Мюнхен (предоставление текстов для корпуса)
  • Керим Ондози, Приштина (сбор и обработка текстов)

Создатели корпуса благодарны издательству «Onufri» (Тирана) за помощь в подборе текстов. Первоначальная версия Корпуса была создана при финансовой поддержке Программы фундаментальных исследований Президиума РАН «Корпусная лингвистика». Корпус использует техническую инфраструктуру Школы лингвистики ВШЭ.

Поддержкой и развитием корпуса в настоящее время занимаются:

  • Мария Сергеевна Морозова (ИЛИ РАН, СПбГУ), morozovamaria86@gmail.com
  • Александр Юрьевич Русаков (ИЛИ РАН, СПбГУ), ayurusakov@gmail.com
  • Тимофей Александрович Архангельский (Университет Гамбурга), timarkh@gmail.com
  • Контакты


    Если у Вас есть вопросы, Вы хотели бы предложить сотрудничество или Вы заметили ошибку в корпусе, пожалуйста, напишите нам об этом. Кроме того, Вы можете использовать по своему усмотрению свободно распространяемые албанский морфологический анализатор и корпусную платформу tsakorpus.

    morozovamaria86@gmail.com

    ayurusakov@gmail.com

    timarkh@gmail.com