Аннотация:Нежелательные рассылки ежегодно приводят к значительным финансовым потерям
как индивидуальных пользователей, так и компаний. В данном исследовании был
проведен обзор современных алгоритмов текстовой классификации в применении к
задаче фильтрации спама и предложен алгоритм классификации спама, который
превзошел другие рассмотренные алгоритмы на наборах TREC, CEAS, ENRON и
SpamAssassin за счет мультимодального анализа самого большого
аттачмента-изображения и текста писем. Анализ аттачмента-изображения
осуществлялся с использованием сверточной сети, а анализ текста - с использованием
универсального кодировщика предложений. Таким образом, был сделан вывод что
нетекстовая информация письма является существенной для фильтрации спама и ее
анализ может улучшить качество классификации.