Аннотация:С развитием Интернета всё актуальнее становится проблема распознавания оригинального контента. Простое копирование информации легко вычислить, а когда слова заменяют синонимами и перемещают в предложении, что широко допустимо в русском языке, компьютер бессилен. Обилие одних и тех же новостей от разных агентств заставляет тратить огромное количество времени на извлечение всей полноты картины происходящего и отбрасывать львиную долю повторной информации.
Ананьев К. Ю. рассмотрел возможность автоматического сравнения текстов на русском языке на предмет их смысловой эквивалентности, составил программу, которая по двум предложениям сообщает о вероятном совпадении их содержания.
Кириллу удалось разработать оригинальный подход к анализу текста. Слова определяются своими «псевдокорнями» (приставка+корень). Предварительно, по библиотеке текстов составляется реберно нагруженный граф зависимостей «псевдокорней» слов по частоте встречаемости в одном предложении. Из рассмотрения исключаются местоимения, предлоги, союзы и прочие слова, которые могут встречаться в любом предложении. Далее делается предположение, что эквивалентные по смыслу предложения можно выявить по вершинам связанным ребрами достаточно большого веса с «псевдокорнями» слов исходных текстов. Ввиду неявности такой зависимости, Ананьев К. Ю. предложил использовать искусственную нейронную сеть прямого распространения в качестве классификатора.