Публикации
A.N. Kirillov, N.B. Krizhanovskaya, A.A. Krizhanovsky.
WSD algorithm based on a new method of vector-word contexts proximity calculation via epsilon-filtration
// Труды КарНЦ РАН. No 7. Сер. Математическое моделирование и информационные технологии. 2018. C. 149-163
Ключевые слова: синоним; синсет; нейронная сеть; корпусная лингвистика; word2vec; RusVectores; gensim; Русский Викисловарь
Рассмотрена задача разрешения лексической многозначности (WSD), а именно по данным наборам синонимов (синсеты) и предложений с этими синонимами требуется автоматически определить, в каком значении использовано слово в предложении.

Экспертами были размечены 1285 предложений, выбрано одно из заранее известных значений (синсетов).

Для решения WSD-задачи предложен алгоритм, основанный на новом способе вычисления близости контекстов. При этом для более высокой точности выполняется предварительная эпсилон-фильтрация слов, как в предложении, так и в наборе синонимов.

Проведена обширная программа экспериментов. Реализовано четыре алгоритма, включая предложенный. Эксперименты показали, что в ряде случаев новый алгоритм показывает лучшие результаты.

Разработанное программное обеспечение и размеченный корпус с открытой лицензией доступны онлайн. Использованы Викисловарь и Викитека.

Резюме работы в виде презентации доступно онлайн.

Видео с лекцией об этом исследовании доступно онлайн.

PDF-файл статьи с цветными иллюстрациями доступен онлайн на сайте arXiv.org.
Индексируется в РИНЦ, Google Scholar
Последние изменения: 11 декабря 2018