Публикации
Т.П. Бойко, Н.Г. Зайцева, Н.Б. Крижановская, А.А. Крижановский, И.П. Новак, Н.А. Пеллинен, А.П. Родионова, Е.Д. Трубина.
Лингвистический корпус ВепКар – «заповедник» прибалтийско-финских языков Карелии
// Труды КарНЦ РАН. No 7. Комплексные научные исследования КарНЦ РАН. 2021. C. 100-115
Ключевые слова: карельский язык; вепсский язык; корпусная лингвистика; Открытый корпус вепсского и карельского языков; корпусный менеджер; словоизменительная парадигма
Целью создания природных заповедников является охрана исчезающих видов флоры и фауны. Для сохранения и последующего изучения языков такими «заповедниками» становятся большие, размеченные, разножанровые лингвистические корпуса. В статье описаны история, структура, возможности и перспективы развития Открытого корпуса вепсского и карельского языков, являющегося одновременно как результатом многолетней междисциплинарной работы лингвистов и программистов Карельского научного центра РАН, так и уникальной источниковой базой для новых исследований. Электронный ресурс ведет свою историю с 2009 года, когда под руководством Зайцевой Н. Г. был создан «Корпус вепсского языка». С 2016 года в корпус входят три карельских подкорпуса: собственно карельский, ливвиковский и людиковский. Объединённая лингвистическая платформа получила название «Открытый корпус вепсского и карельского языков» (ВепКар). Корпус включает в себя тексты и словари, хранящиеся в базе данных, и компьютерную программу, обеспечивающую поиск и обработку текстов. Эта программа называется «корпусным менеджером», она написана на языке программирования PHP в системе разработки веб-сайтов Laravel. Данные хранятся в базе данных MySQL. Словари и тексты корпуса вместе с поисковой системой доступны онлайн (dictorpus.krc.karelia.ru). Авторы проекта уделяют внимание популяризации корпуса ВепКар с помощью сайтов YouTube и Википедия.
Особенностью базы данных и самого корпуса ВепКар является тесная взаимосвязь словарей и текстов. Многофункциональные словари вепсского и карельского языков содержат толкование, перевод, диалектные пометы, семантические отношения (синонимы, антонимы и др.), примеры словоупотреблений со ссылкой на тексты, а также полные словоизменительные парадигмы. Все тексты автоматически размечаются и от слов в тексте идут отсылки на соответствующие значения в словарных статьях.
Разработчики добавляют в корпусный менеджер новые полезные функции, призванные облегчить работу редакторов. Например, за последние три года были сформулированы и запрограммированы правила именного и глагольного словоизменения для всех диалектов вепсского языка и его младописьменного варианта, а также для ливвиковского, севернокарельского и тверского новописьменных вариантов карельского языка. Благодаря этому в системе ВепКар в полуавтоматическом режиме было сгенерировано 2.1 млн словоформ. Кроме семантической разметки, представленной в корпусе (2.1 млн связей между словами из текста и значениями лемм в словаре), была добавлена грамматическая разметка, позволившая автоматически установить 1.1 млн связей между словами из текста и грамматическими характеристиками словоформ из словаря.
Многоязычный корпус ВепКар делится на подкорпуса по языкам и наречиям, также есть стилевая и жанровая классификация текстов. В корпусе организована развитая система поиска с фильтрацией текстов по языковой, стилистической и диалектной принадлежности, по информанту, собирателю или автору, году записи или году публикации. Поиск лемм возможен по диалектам, частям речи, грамматическим признакам и даже по лексико-семантическим категориям. Эти категории появились благодаря интеграции выдающегося «Сопоставительно-ономасиологического словаря диалектов карельского, вепсского, саамского языков» в словарную часть ВепКар.
На базе ВепКар в 2021 году был создан электронный словарь Sanahelmi для телефонов с операционной системой Android. Разработка мобильных приложений на основе данных корпуса будет продолжена.
Особенностью базы данных и самого корпуса ВепКар является тесная взаимосвязь словарей и текстов. Многофункциональные словари вепсского и карельского языков содержат толкование, перевод, диалектные пометы, семантические отношения (синонимы, антонимы и др.), примеры словоупотреблений со ссылкой на тексты, а также полные словоизменительные парадигмы. Все тексты автоматически размечаются и от слов в тексте идут отсылки на соответствующие значения в словарных статьях.
Разработчики добавляют в корпусный менеджер новые полезные функции, призванные облегчить работу редакторов. Например, за последние три года были сформулированы и запрограммированы правила именного и глагольного словоизменения для всех диалектов вепсского языка и его младописьменного варианта, а также для ливвиковского, севернокарельского и тверского новописьменных вариантов карельского языка. Благодаря этому в системе ВепКар в полуавтоматическом режиме было сгенерировано 2.1 млн словоформ. Кроме семантической разметки, представленной в корпусе (2.1 млн связей между словами из текста и значениями лемм в словаре), была добавлена грамматическая разметка, позволившая автоматически установить 1.1 млн связей между словами из текста и грамматическими характеристиками словоформ из словаря.
Многоязычный корпус ВепКар делится на подкорпуса по языкам и наречиям, также есть стилевая и жанровая классификация текстов. В корпусе организована развитая система поиска с фильтрацией текстов по языковой, стилистической и диалектной принадлежности, по информанту, собирателю или автору, году записи или году публикации. Поиск лемм возможен по диалектам, частям речи, грамматическим признакам и даже по лексико-семантическим категориям. Эти категории появились благодаря интеграции выдающегося «Сопоставительно-ономасиологического словаря диалектов карельского, вепсского, саамского языков» в словарную часть ВепКар.
На базе ВепКар в 2021 году был создан электронный словарь Sanahelmi для телефонов с операционной системой Android. Разработка мобильных приложений на основе данных корпуса будет продолжена.
DOI: 10.17076/them1415
Индексируется в РИНЦ, Google Scholar
Последние изменения: 12 июня 2022