ИСТИНА |
Войти в систему Регистрация |
|
ИПМех РАН |
||
Важность анализа Интернет информации при решении задач противодействия терроризму и экстремизму в настоящее время понимается на самых разных уровнях. Исследованиями в этой области активно занимаются государственные агентства, частные компании, академические исследователи. Настоящая работа посвящена исследованию и разработке методов машинного обучения для обнаружения информации потенциально экстремистского содержания в социальных сетях на основе использования тренировочных документов-образцов, содержащих экстремистскую информацию. В работе предложен новый языково-независимый подход, основанный на применении методов латентно-семантического анализа к тексту документов-образцов для формирования характерных тематик и ключевых слов. Далее по полученным ключевым словам формируются поисковые запросы в популярные социальные сети (twitter, vk), после чего все найденные документы ранжируются на основе оценки их принадлежности к выделенным экстремистским тематикам. Применение традиционных методов обработки текстовых данных, использующих языково-ориентированные лингвистические подходы, к сообщениям потенциально экстремистского содержания из социальных сетей является затруднительным по следующим причинам. Сообщения в ленте сетевого сообщества могут быть написаны на смеси различных языков (русский, английский, арабский и т.п.), содержать орфографические и грамматические ошибки (в том числе преднамеренные), включать обсуждение одновременно нескольких тем (в том числе не экстремистских), использовать сленг, жаргон и специальные кодовые слова. Для решения перечисленных проблем в работе было исследовано представление слов в виде N-грамм, а для последующего выделения характерных тематик и ключевых слов применялся латентно-семантический анализ на основе ортонормированной неотрицательной матричной факторизации. Используемые в предложенном подходе методы выделения ключевых слов и семантического ранжирования документов были экспериментально проверены на эталонном наборе данных Ansar1. Работа поддерживается грантом РФФИ № 16-29-09555\16 офи_м по направлению «Безопасность и противодействие терроризму».