Публикации
Крижановский А.
Сравнение тезаурусов Русского и Английского Викисловарей, преобразованных в машиночитаемый формат : препринт
2010.
Ключевые слова: Викисловарь, словарь, тезаурус, лексикография, машинно-читаемый словарь, парсер
Викисловарь – это уникальный, значимый и богатый ресурс для автоматической обработки текста (NLP). В статье вслед за особенностями Викисловаря рассматривается архитектура парсера Викисловаря, в котором учтены эти особенности. Не оставлены без внимания открытые вопросы Викисловаря и сложности в реализации парсера. Построенный парсер извлекает значения слова, семантические отношения и переводы из Английского и Русского Викисловарей. Статья может быть интересна учёным и программистам, которые хотят использовать построенный машинный словарь для решения NLP задач либо желают построить парсер на основе данного проекта для обработки ещё одного из оставшихся неохваченными 170 Викисловарей. Выполнено сравнение словарных статей Английского и Русского Викисловарей, а именно были сравнены количество и тип семантических отношений, число значений слов, число переводов. Английский Викисловарь оказался больше по числу семантических отношений в полтора раза (157 и 100 тыс), однако в Русском Викисловаре больше слов «богатых» на отношения (например, в полтора раза больше словарных статей с числом семантических отношений больше трёх). Сравнение позволило выявить некоторые методологические недостатки викисловарей.

препринт (854 Kb, скачиваний: 16)

Последние изменения: 24 мая 2019