Публикации
Крижановский А.
Преобразование структуры словарной статьи Викисловаря в таблицы и отношения реляционной базы данных : препринт
2010.
Ключевые слова: Викисловарь, словарь, тезаурус, лексикография, машиночитаемый словарь, парсер
В статье обсуждается вопрос автоматического извлечения данных из Викисловаря – многоязычного многофункционального словаря, создающегося силами энтузиастов со всего мира на тех же принципах, на которых успешно работает энциклопедия Википедия. С точки зрения компьютерной обработки текста словарная статья Викисловаря представляет собой обычный текст. Руководство Викисловаря описывает структуру словарной статьи и ряд правил, которых должны придерживаться редакторы словаря. Эта структура и правила позволяют взглянуть на словарную статью с точки зрения объектно-ориентированного программирования. В этом случае сама статья и её разделы и подразделы будут соответствовать классам, а наличие каких-либо подразделов в разделах указывает на наличие отношений между классами-подразделами и классами-разделами. Такое соответствие позволяет перевести "плоский" текст Викисловаря в объектно-ориентированную форму, а именно: на основе данных Викисловаря создать экземпляры классов, присвоить значения свойствам объектов. Естественным результатом будет создание программного интерфейса (API) для работы с объектами этих классов, а по сути – с данными Викисловаря. С другой стороны, для удобной компьютерной обработки данные Викисловаря должны храниться в базе данных. В данной работе представлено, как при создании машиночитаемого Викисловаря были решена задача преобразования структуры словарной статьи Викисловаря в таблицы и отношения реляционной базы данных, т.е. «плоский» текст словарных статей Викисловаря был преобразован и сохранён в специально разработанную реляционную базу данных. Созданный машиночитаемый словарь содержит толкования слов, семантические отношения и переводы, извлечённые из Английского и Русского Викисловарей. Разработанное программное обеспечение находится в свободном доступе c открытой лицензией (проект wikokit) с тем, чтобы привлечь учёных и программистов к использованию построенного машинного словаря и развитию парсера.

Препринт (355 Kb, скачиваний: 25)

Последние изменения: 24 мая 2019