Описание:Цель курса – сформировать практические навыки применения нейронных сетей в задачах автоматической обработки текстовых данных. Программа включает подробный анализ современных исследований в области компьютерной лингвистики, направленных на решение реальных задач обработки текста. Предполагается, что навык обработки естественного языка будет полезен современному ученому для автоматизации работы с большими объемами текстовых данных.
Курс начнется с введения в обработку естественного языка – этапов предобработки текста, методов векторизации и алгоритмов классического машинного обучения. Участники познакомятся с принципом построения и применения векторных представлений слов на основе нейросетей. Будет рассмотрено понятие языкового моделирования и принцип работы n-граммных языковых моделей. Далее мы перейдем к наиболее современным моделям на основе архитектуры Трансформер. Участники курса освоят принцип работы механизма внимания. Будут подробно рассмотрено применение языковых моделей на основе энкодера и декодера Трансформера для решения основных задач обработки текстов. Наконец, мы познакомимся с подходами, позволяющими осуществлять тонкую настройку больших языковых моделей, снижая при этом требования к памяти и вычислительным мощностям.