![]() |
ИСТИНА |
Войти в систему Регистрация |
ИПМех РАН |
||
Целью настоящего проекта является разработка программного комплекса мониторинга и анализа работы пользователей с документами в корпоративных сетях. Предлагаемая система должна осуществлять мониторинг работы пользователей с документами на локальных машинах с ОС Windows и агрегацию собранной информации в едином месте для дальнейшего её анализа. В предлагаемой системе мониторинг действий пользователей с документами будет осуществлять специальная программа-агент, устанавливаемая на наблюдаемые локальные машины. Агент на локальной машине должен обеспечивать ведение жизненного цикла документов, с которыми работает пользователь. Т.е. каждому документу ставится в соответствие уникальный идентификатор, с которым ассоциируются все действия пользователя (такие как создание, изменение, перемещение, удаление) произведённые с данным документом на данной машине, а также при изменении документа делается его теневая копия. Информация о теневых копиях документа также ассоциируется с его идентификатором. После чего вся собранная информация с локальных машин сети передаётся агентами в центральное хранилище для предоставления администратору. В итоге формируется база знаний, в которой: 1. Сохраняется информация о действиях пользователей с документами на локальных машинах; 2. Сохраняется информация о жизненных циклах документов, включая их теневые копии. Для удобства анализа работы пользователей с текстовыми документами предлагаемая система также должна включать модуль анализа текстовой информации, который будет взаимодействовать с базой знаний. Предполагается, что модуль анализа текстовой информации будет включать современные средства: 1. Многотемной классификация текстовой информации на основе методов машинного обучения. 2. Построения аннотаций к текстовым файлам, для быстрого ознакомления с содержимым файла. Задача классификации многотемных документов (multi-label classification) заключается в определении принадлежности документа к одному или нескольким классам (из предопределённого набора классов). Классы в рассматриваемой задаче не являются взаимоисключающими (как в традиционной постановке задачи классификации), а могут пересекаться и быть вложенными. Сейчас наиболее актуальными являются методы автоматического аннотирования, которые строят аннотации в форме выдержек, т.е. результирующая аннотация полностью состоит из последовательности фрагментов исходного текста. Это обусловлено тем, что большинство современных систем работают с большим количеством документов (которые могут быть написаны на разных языках и иметь различное форматирование), тем самым требования к скорости работы и ресурсоёмкости алгоритмов аннотирования являются более приоритетными, чем качество построенных аннотаций. Поэтому в коммерческих системах не используются методы «глубокой» обработки текста, т.е. методы, в которых производится полный синтаксический и семантический анализ текста, выделяются сущности текста и связи между ними, а затем на их основе определяются наиболее значимые части текста. В связи с этим в данной работе предполагается использование методов автоматического аннотирования, которые строят аннотации в форме выдержек. Резюмируя все вышесказанное, можно сформулировать основные цели настоящего проекта. Разработать архитектуру распределенной мультиагентной системы мониторинга и анализа работы пользователей с документами в корпоративных сетях. Реализовать агенты мониторинга, обеспечивающие ведение жизненных циклов документов на локальных машинах и передачу собранной информации в центральное хранилище. Реализовать подсистему сбора данных ? систему принимающую данные от агентов и заполняющую центральное хранилище. Реализовать модуль анализа текстовой информации. Выполнение обозначенных выше целей позволит решать ряд задач: 1. выявление внутренних угроз – за счет мониторинга доступа пользователей к информации различного рода, используя средства анализа текстовой информации; 2. расследования инцидентов безопасности – возможность ретроспективного анализа уже произошедших нарушений за счет мониторинга операций с документами и ведения их жизненных циклов; 3. снижение рисков потери или искажения информации за счёт сохранения копий документов.
В ходе выполнения Проекта была разработана архитектура и реализован расширяемый программный прототип системы мониторинга и анализа работы пользователей с документами в корпоративных сетях, включающий новые средства: a) мониторинга потоков текстовых документов на компьютерах и подключаемых к ним внешних носителях под управлением современных ОС семейства Windows, в том числе с 64 битной архитектурой; b) анализа работы пользователей с документами, основанные на разработанных и реализованных алгоритмах автоматического аннотирования, многотемной классификации, кластеризации и информационного поиска.
МГУ имени М.В.Ломоносова | Координатор |
грант РФФИ |
# | Сроки | Название |
1 | 1 января 2012 г.-31 декабря 2012 г. | Разработка программного комплекса мониторинга и анализа работы пользователей с документами в корпоративных сетях |
Результаты этапа: | ||
2 | 1 января 2013 г.-31 декабря 2013 г. | Разработка программного комплекса мониторинга и анализа работы пользователей с документами в корпоративных сетях |
Результаты этапа: | ||
3 | 31 января 2014 г.-31 декабря 2014 г. | Разработка программного комплекса мониторинга и анализа работы пользователей с документами в корпоративных сетях |
Результаты этапа: В ходе выполнения Проекта была разработана архитектура и реализован расширяемый программный прототип системы мониторинга и анализа работы пользователей с документами в корпоративных сетях, включающий новые средства: a) мониторинга потоков текстовых документов на компьютерах и подключаемых к ним внешних носителях под управлением современных ОС семейства Windows, в том числе с 64 битной архитектурой; b) анализа работы пользователей с документами, основанные на разработанных и реализованных алгоритмах автоматического аннотирования, многотемной классификации, кластеризации и информационного поиска. |
Для прикрепления результата сначала выберете тип результата (статьи, книги, ...). После чего введите несколько символов в поле поиска прикрепляемого результата, затем выберете один из предложенных и нажмите кнопку "Добавить".