Цель исследования состоит в построении и развитии открытого корпуса вепсского и карельского языков.
Будет продолжена работа по развитию и пополнению корпуса вепсского языка. Будут созданы корпус наречий карельского языка (собственно-карельского, ливвиковского и людиковского) и электронные словари этих наречий, связанные с корпусами, будет продолжена работа по развитию аппарата экстралингвистической разметки корпуса (сведения об авторе, тексте, информанте, месте записи и т. п.). На небольшом подкорпусе диалектных и младописьменных текстов вручную будет выполнена морфологическая и семантическая разметка текстов.
Результаты проекта (корпуса и словари вепсского и карельских языков) будут соответствовать мировому уровню, поскольку таких электронных лингвистических ресурсов в мире на данный момент нет. Наличие такого ресурса внесёт существенный вклад в решение ключевых проблем, связанных с сохранением и популяризацией вепсского и карельского языков, находящихся под угрозой исчезновения, а также изучением взаимодействия русского языка и его диалектов с прибалтийско-финскими языками народов Карелии.
Название корпуса (Открытый корпус вепсского и карельского языков) отражает важную особенность данного проекта, которая заключается в открытости и доступности результатов, а именно:
1) исходный код разработанной компьютерной программы для работы с корпусом и словарем будет распространяться с открытой лицензией (free software);
2) данные корпуса и словаря будут находиться в открытом доступе с открытой лицензией;
3) через сайт Корпуса в разделе “Словарь” пользователям будет доступен поиск по словарю, в разделе “Корпус” - поиск по текстам корпуса; редакторы смогут редактировать и пополнять словарь и корпус;
4) результаты научных исследований станут общественным достоянием в виде публикаций.
Проекты
Проблемы создания корпусов языков малочисленных народов России на примере Открытого корпуса вепсского и карельского языков
2018-2020 г.г.рук. Крижановский А.А.
РФФИ, № 18-012-00117
Последние изменения: 9 апреля 2024