Аннотация:В данной работе предлагаются улучшения существующих моделей векторного
представления семантики слова. Первое улучшение – обучение модели, основанной
на поточечной взаимной информации, на данных о частотности N-грамм,
извлеченных из электронной библиотеки Google Books (проект Google N-grams).
Второе – автоматическое разрешение лексической неоднозначности в тексте,
подаваемом на вход нейросетевому методу построения семантических векторов.
Для оценки каждого из улучшений построена соответствующая система.
В работе подробно рассматриваются особенности систем и результаты оценки.
Обучение на Google N-grams не дало удовлетворительных результатов, это связано с
некоторыми особенностями исходных данных. Однако, из этого не следует
неэффективность такого подхода.
Система разрешения лексической неоднозначности демонстрирует
обнадеживающие результаты, проведенные исследования показывают, что система
способна выделять доминантные значения слов. При этом системе не требуется
никаких размеченных данных.