Методы латентно-семантического анализа для обнаружения информации потенциально экстремистского содержания в сети интернет - доклад на конференции | ИСТИНА – Интеллектуальная Система Тематического Исследования НАукометрических данных

Авторы: Машечкин И.В., Царёв Д.В., Петровский М.И.
Всероссийская с международным участием Конференция : Тихоновские Чтения 23-27 октября 2017 года, факультет ВМК МГУ имени М.В.Ломоносова
Даты проведения конференции: 23-27 октября 2017
Дата доклада: 25 октября 2017
Тип доклада: Устный
Докладчик: Петровский М.И.
Место проведения: Факультет ВМК МГУ имени М.В.Ломоносова, Russia
Аннотация доклада:
Важность анализа Интернет информации при решении задач противодействия терроризму и экстремизму в настоящее время понимается на самых разных уровнях. Исследованиями в этой области активно занимаются государственные агентства, частные компании, академические исследователи. Настоящая работа посвящена исследованию и разработке методов машинного обучения для обнаружения информации потенциально экстремистского содержания в социальных сетях на основе использования тренировочных документов-образцов, содержащих экстремистскую информацию. В работе предложен новый языково-независимый подход, основанный на применении методов латентно-семантического анализа к тексту документов-образцов для формирования характерных тематик и ключевых слов. Далее по полученным ключевым словам формируются поисковые запросы в популярные социальные сети (twitter, vk), после чего все найденные документы ранжируются на основе оценки их принадлежности к выделенным экстремистским тематикам. Применение традиционных методов обработки текстовых данных, использующих языково-ориентированные лингвистические подходы, к сообщениям потенциально экстремистского содержания из социальных сетей является затруднительным по следующим причинам. Сообщения в ленте сетевого сообщества могут быть написаны на смеси различных языков (русский, английский, арабский и т.п.), содержать орфографические и грамматические ошибки (в том числе преднамеренные), включать обсуждение одновременно нескольких тем (в том числе не экстремистских), использовать сленг, жаргон и специальные кодовые слова. Для решения перечисленных проблем в работе было исследовано представление слов в виде N-грамм, а для последующего выделения характерных тематик и ключевых слов применялся латентно-семантический анализ на основе ортонормированной неотрицательной матричной факторизации. Используемые в предложенном подходе методы выделения ключевых слов и семантического ранжирования документов были экспериментально проверены на эталонном наборе данных Ansar1. Работа поддерживается грантом РФФИ № 16-29-09555\16 офи_м по направлению «Безопасность и противодействие терроризму».

Доклад на конференции выполнен в рамках проекта (проектов):

Исследование, разработка и применение инновационных технологий построения интеллектуальных программных систем

Добавил в систему: Царёв Дмитрий Владимирович

	ИСТИНА	Войти в систему Регистрация
	ИПМех РАН
	Главная Поиск Статистика О проекте Помощь

ИСТИНА

ИПМех РАН

Методы латентно-семантического анализа для обнаружения информации потенциально экстремистского содержания в сети интернетдоклад на конференции