Обзор возможных рисков использования систем с мультимодальными языковыми моделями - доклад на конференции | ИСТИНА – Интеллектуальная Система Тематического Исследования НАукометрических данных

Авторы: Нутфуллин Б.М., Евграфов В.А.
Локальная Конференция : Научная конференция "Тихоновские чтения 2023" (Москва, Россия, 30 октября - 3 ноября 2023)
Даты проведения конференции: 29 октября - 3 ноября 2023
Дата доклада: 2 ноября 2023
Тип доклада: Устный
Докладчик: Нутфуллин Б.М.
Место проведения: МГУ имени М.В.Ломоносова, Russia
Аннотация доклада:
Мультимодальность стала ключевым новшеством в больших языковых моделях (LLM) за последнее время. Мультимодальность для языковой модели это способность обрабатывать входные данные в различных форматах, таких как текст, изображение и голос. Крупные компании, такие как Google, OpenAI и Microsoft, выпустили свои версии мультимодальных LLM, делая значительный вклад в улучшение генеративных AI-чатботов. Способность к преобразованию текста в изображения и наоборот открыла новые возможности в области компьютерного зрения и зрительно-языковой обработке, включая описание изображений, их распознавание и более сложные приложения, такие как написание ре- цепта для блюда по фотографии содержимого холодильника. Анонс Google чатбот-ассистента Bard, выпуск OpenAI GPT-4V, вместе с добавлением Microsoft поддержки ввода изображений для своего виртуального помощника Bing Chat иллюстрирует движение индустрии в сторону мультимодальных возможностей в LLM-системах, а также подчеркивает текущую конкуренцию в сфере мультимодальных LLM-систем, наце- ленных на взаимодействие с пользователем при помощи текста, изображений и голоса используя единый канал. Несмотря на потенциал мультимодальных LLM, они подвержены ограничениям тради- ционных текстовых LLM, таким как генерация неточных ответов. Кроме этого, использование изображений в качестве ввода представляет собой уникальные проблемы и риски, такие как косвенное внедрение запроса с последующим "отравление диалога" с целью влияния на будущее поведение модели в соответствии с вредоносными инструкциями. Возможность встра- ивания инструкций для LLM в передаваемые изображения, как подчеркнуто OpenAI, вызывает опасения относительно уязвимости модели перед внешними угрозами. Движение LLM-систем в сторону мультимодальности является одновременно возмож- ностью и вызовом для исследователей ИИ так и коммерческих разработчиков LLM-систем. Поскольку сфера LLM продолжает эволюционировать, для организаций крайне важно пони- мать возможности и риски, связанные с этой технологией, обеспечивая максимизацию пользы и минимизацию рисков потенциальных угроз.
Добавил в систему: Евграфов Владимир Андреевич

	ИСТИНА	Войти в систему Регистрация
	ИПМех РАН
	Главная Поиск Статистика О проекте Помощь

ИСТИНА

ИПМех РАН

Обзор возможных рисков использования систем с мультимодальными языковыми моделямидоклад на конференции