Албанский национальный корпус
Вы находитесь на стартовой странице сайта, на котором размещен Албанский национальный корпус (АНК) объемом 31,12 миллионов словоупотреблений.
Корпус предназначен для тех, кто интересуется самыми разными вопросами, связанными с албанским языком, и способен предоставить справочную информацию как профессиональным лингвистам, так и всем, кто в силу профессии или простой любознательности проявляет интерес к этому языку и его истории. Собранный материал может быть использован для научных исследований лексики и грамматики, а также для изучения процессов языковых изменений, происходивших в албанском языке на протяжении предшествующих столетий.
За период с 2012 года по настоящее время в Албанский национальный корпус были включены прежде всего прозаические оригинальные тексты (художественная литература, нехудожественные тексты, пресса), представляющие албанский литературный язык (начиная с 1970-х гг.), а также переводные тексты и албанская поэзия. Проект направлен на максимально широкое представление не только современных албанских письменных текстов разного жанра, но и текстов, созданных в разные периоды албанской языковой истории, а также устных разговорных и диалектных текстов, представляющих нелитературные формы современного албанского языка. К настоящему моменту открыт (сентябрь 2019 г.) и пополняется корпус старых письменных памятников.
Тексты АНК снабжены доступной пользователю метаразметкой и морфологической (словоизменительной) разметкой, которая представляет собой набор помет, приписываемых отдельным словоупотреблениям.
Разметка
- автоматическая морфологическая разметка (лемматизация, часть речи, все словоизменительные категории), 93,9% словоформ имеют хотя бы один разборучитываются слова, не содержащие цифр и символов других алфавитов
- омонимия на данном этапе не снималась
- глоссирование
- переводы лемм на английский язык
Метаданные
- название текста
- автор или название издания (в случае газет)
- год создания (точная дата в случае газет)
- жанр / тип текста
Характеристики корпусов
В настоящее время доступны два корпуса: корпус современного литературного албанского языка («основной корпус») и корпус старых письменных памятников. Они отличаются представленным в них материалом и способом его представления, но имеют в целом одинаковую разметку и поисковые возможности. Вот их характеристики:
Основной корпус
Основной корпус содержит 31,12 млн. словоупотреблений и включает в себя следующие подкорпуса:
|
Пресса |
Художественные тексты |
Нехудожественные тексты |
Поэзия |
Размер |
23,4 млн. слов (75,2% от всего корпуса) |
3,2 млн. слов (10,3% от всего корпуса) |
4,3 млн. слов (13,8% от всего корпуса) |
0,2 млн. слов (0,7% от всего корпуса) |
Тексты |
|
аутентичные и переводные художественные тексты: романы, повести, рассказы, пьесы, литература для детей (Албания, Косово, Северная Македония, 1960–2010-е гг.) |
|
поэзия Албании первой половины ХХ в. (творчество Асдрени, А. З. Чаюпи, Мигьени, Ф. Ноли, Л. Порадеци); поэзия Албании, Косово и Северной Македонии, 1950–2010-е гг. |
Регистр языка |
В большинстве случаев нормативный письменный литературный албанский или близкий к нему.
В интервью и цитатах встречаются образцы диалектной речи. |
В большинстве случаев нормативный письменный литературный албанский или близкий к нему.
В речи персонажей встречаются образцы диалектной речи или стилизация под нее. |
В большинстве случаев нормативный письменный литературный албанский или близкий к нему.
В текстах, созданных до 1950-х гг. — более ранние литературноязыковые варианты. |
В большинстве случаев нормативный письменный литературный албанский или близкий к нему.
В поэтических текстах, созданных до 1950-х гг. — более ранние литературноязыковые варианты. |
Корпус старых письменных памятников
Предполагается включить в корпус основные памятники албанской письменности: произведения Гь. Бузука, Л. Матранги, П. Буди, Ф. Барди, П. Богдани, П. Мазреку, Арберийский канун.
В настоящее время в Корпусе старых письменных памятников размещен текст «Катехизиса» Л. Матранги (1592). Книга Матранги представляет собой второй по времени крупный текст, написанный на албанском языке, и первый на тоскском диалекте.
Текст, размещенный в корпусе, базируется на так называемой рукописи А. При выкладке использована транскрипция М. де Фаана, основанная на M. Sciambra. La «Dottrina cristiana» albanese di Luca Matranga (1964) и доступная на TITUS. Мы выражаем М. де Фаану глубокую благодарность за предоставление текстового варианта своей транскрипции. При работе производилась сверка с другими изданиями катехизиса, в том числе фототипическими.
Публикации о Корпусе
Более подробную информацию о содержании Албанского национального корпуса и его разработке Вы можете найти в наших публикациях:
Morozova, Maria. Shënime për standardin morfologjik të Korpusit nacional të shqipes // Seminari Ndërkombëtar për Gjuhën, Letërsinë dhe Kulturën Shqiptare. Materialet e punimeve të Seminarit XXXI Ndërkombëtar për Gjuhën, Letërsinë dhe Kulturën Shqiptare: Prishtinë, 13–27 gusht 2012 / kryered. B. Rugova. Prishtinë: Universiteti i Prishtinës: Fakulteti i filologjisë, 2012. 31/1. F. 153–156.
Arkhangelskij, Timofej, Mikhail Daniel, Maria Morozova, Aleksandër Rusakov. Korpusi i gjuhës shqipe: drejtimet kryesore të punës // Shqipja dhe gjuhët e Ballkanit. Albanian and Balkan Languages. Konferencë e mbajtur më 10–11 dhjetor 2011 në Prishtinë / red. R. Ismajli. Prishtinë: ASHAK, 2012. F. 635-642.
Rusakov, Aleksandër, Maria Morozova. Korpusi i gjuhës shqipe: problemet dhe rezultatet // Studime për nder të Rexhep Ismajlit me rastin e 65-vjetorit të lindjes / red. B. Rugova. Prishtinë: Koha, 2012. F. 639–649.
Морозова, Мария Сергеевна, Александр Юрьевич Русаков, Марина Валентиновна Домосилецкая. Албанская именная морфология в корпусном представлении: Национальный корпус албанского языка // Албанская филология, балканистика, проблемы языкознания. К 100-летию со дня рождения члена-корреспондента РАН Агнии Васильевны Десницкой / ред. А. Х. Гирфанова, М. В. Домосилецкая, А. В. Жугра, Н. Н. Казанский, А. Ю. Русаков, Н. Л. Сухачев. СПб.: Наука, 2013. C. 120–130.
Morozova, Maria, Alexander Rusakov. Korpusi elektronik i shqipes: përpunimi, përmbajtja dhe përdorimi // Seminari Ndërkombëtar për Gjuhën, Letërsinë dhe Kulturën Shqiptare. Materialet e punimeve të Seminarit XXXII Ndërkombëtar për Gjuhën, Letërsinë dhe Kulturën Shqiptare: Prishtinë, 19–30.08.2013 / kryered. B. Rugova. Prishtinë: Universiteti i Prishtinës: Fakulteti i filologjisë, 2014. 33/1. F. 85-96.
Morozova, Maria, Alexander Rusakov. Albanian National Corpus: Composition, Text Processing and Corpus-Oriented Grammar Development // Sprache und Kultur der Albaner. Zeitliche und räumliche Dimensionen. Akten der 5. Deutsch-albanischen kulturwissenschaftlichen Tagung (5.–8. Juni 2014, Buçimas bei Pogradec, Albanien) / Hrsg. von B. Demiraj. Wiesbaden: Harrassowitz Verlag, 2015. (Albanische Forschungen, 37). S. 270-308.
Морозова, Мария Сергеевна, Тимофей Александрович Архангельский, Михаил Александрович Даниэль, Александр Юрьевич Русаков. Албанский национальный корпус: основные направления работы // Acta Linguistica Petropolitana. Труды Института лингвистических исследований РАН / отв. ред. Н. Н. Казанский. СПб.: Наука, 2016. Т. XII, ч. 3. С. 169–189.
Как цитировать Корпус
Если Вы используете данные Албанского национального корпуса в своём исследовании, воспользуйтесь, пожалуйста, следующей ссылкой:
Мария Сергеевна Морозова, Александр Юрьевич Русаков, Тимофей Александрович Архангельский. Албанский национальный корпус. (Доступно онлайн по адресу: albanian.web-corpora.net, дата обращения .)
Авторы
Корпус создан в результате творческого содружества санкт-петербургских (Институт лингвистических исследований РАН) и московских лингвистов (Школа лингвистики НИУ ВШЭ).
Для предыдущей версии корпуса была адаптирована поисковая система Восточноармянского национального корпуса (ВАНК). В текущей версии используются морфологический анализатор и корпусная платформа tsakorpus, разработанные Т. А. Архангельским.
Основные идеи по созданию корпуса, разработке корпусного представления албанской грамматики, системы метаразметки и грамматической аннотации принадлежат М. С. Морозовой и А. Ю. Русакову. В обсуждении этих проблем принимали активное участие Т. А. Архангельский и М. А. Даниэль.
В разработке корпуса участвовали:
- Мария Сергеевна Морозова, Санкт-Петербург (корпусное представление албанской грамматики, грамматическая разметка, метатекстовая разметка, словник корпуса, сбор и обработка текстов)
- Александр Юрьевич Русаков, Санкт-Петербург (корпусное представление албанской грамматики, сбор и обработка текстов)
- Тимофей Александрович Архангельский, Москва — Гамбург (разработка морфологического анализатора и корпусной платформы и пользовательского интерфейса корпуса, техническая поддержка)
- Марина Валентиновна Домосилецкая, Санкт-Петербург (составление словника корпуса — имена существительные)
- Анна Вадимовна Коноваленко, Санкт-Петербург (составление словника корпуса — наречия)
- Анастасия Геннадьевна Сидько, Санкт-Петербург (составление словника корпуса — имена существительные, прилагательные, глаголы)
- Дарья Александровна Алексеева, Санкт-Петербург (сбор и обработка текстов)
- Елизавета Алексеевна Атакова, Санкт-Петербург (сбор и обработка текстов)
- Варвара Андреевна Дивеева, Санкт-Петербург (сбор и обработка текстов)
- Максим Максимович Макарцев, Москва — Ольденбург (предоставление текстов для корпуса)
- Бесим Кабаши, Мюнхен (предоставление текстов для корпуса)
- Керим Ондози, Приштина (сбор и обработка текстов)
Создатели корпуса благодарны издательству «Onufri» (Тирана) за помощь в подборе текстов. Первоначальная версия Корпуса была создана при финансовой поддержке Программы фундаментальных исследований Президиума РАН «Корпусная лингвистика».
Корпус использует техническую инфраструктуру Школы лингвистики ВШЭ.
Поддержкой и развитием корпуса в настоящее время занимаются:
Мария Сергеевна Морозова (ИЛИ РАН, СПбГУ), morozovamaria86@gmail.com
Александр Юрьевич Русаков (ИЛИ РАН, СПбГУ), ayurusakov@gmail.com
Тимофей Александрович Архангельский (Университет Гамбурга), timarkh@gmail.com