Методы машинного обучения для обнаружения активности экстремистского характера в сети Интернеттезисы доклада

Работа с тезисами доклада


[1] Методы машинного обучения для обнаружения активности экстремистского характера в сети Интернет / Е. И. Красняков, И. В. Машечкин, М. И. Петровский, Д. В. Царёв // Ломоносовские чтения: Научная конференция, Москва, факультет ВМК МГУ имени М.В.Ломоносова, 17-26 апреля 2017 г. Тезисы докладов. — МАКС Пресс Москва, 2017. — С. 111–111. Интернет является одним из основных средств обмена информацией и пропаганды для террористических и экстремистских сообществ. В работе развиваются предложенные в методы, основанные на машинном обучении, использующие сценарий поиска по образцу для обнаружения в сети электронных сообщений, документов, web-ресурсов, содержащих экстремистскую информацию, а также пользователей и сообществ в социальных сетях, распространяющих такую информацию. В рамках такого сценария доступен материал экстремистского содержания, и требуется найти семантически близкие материалы в социальной сети. С помощью метода семантического анализа на основе ортонормированной неотрицательной матричной факторизации выделяются ключевые слова образца, которые формируют поисковые запросы для социальной сети, и характерные тематики образца. Основанный на ортонормированной неотрицательной матричной факторизации метод семантического анализа выделяет ключевые слова образца, которые формируют поисковые запросы для социальной сети, и характерные тематики образца. Поисковая выдача по кючевым словам в социальной сети содержит много шума - документов, содержащих ключевые слова, но семантически далеких от исходного образца. Для фильтрации шума рассчитывается оценка релевантности найденных документов образцу с использованием проекции на выявленные в образце тематики. Для документов экстремистского содержания характерны многоязычность, случайные и преднамеренные грамматические ошибки, намеренное искажение семантически важных слов, наличие ссылок и хэштегов, что существенно усложняет семантический анализ. Для решения этих проблем используется представление документов на основе n-грамм и обогащение текстов документов (откачка и автоматическое аннотирование информации по ссылкам и хэштегам и включение их в тело документа). Программный прототип, в котором реализованы описанные подходы, применен к анализу реальных данных из социальных сетей.

Публикация в формате сохранить в файл сохранить в файл сохранить в файл сохранить в файл сохранить в файл сохранить в файл скрыть