![]() |
ИСТИНА |
Войти в систему Регистрация |
ИПМех РАН |
||
Мультимодальность стала ключевым новшеством в больших языковых моделях (LLM) за последнее время. Мультимодальность для языковой модели это способность обрабатывать входные данные в различных форматах, таких как текст, изображение и голос. Крупные компании, такие как Google, OpenAI и Microsoft, выпустили свои версии мультимодальных LLM, делая значительный вклад в улучшение генеративных AI-чатботов. Способность к преобразованию текста в изображения и наоборот открыла новые возможности в области компьютерного зрения и зрительно-языковой обработке, включая описание изображений, их распознавание и более сложные приложения, такие как написание ре- цепта для блюда по фотографии содержимого холодильника. Анонс Google чатбот-ассистента Bard, выпуск OpenAI GPT-4V, вместе с добавлением Microsoft поддержки ввода изображений для своего виртуального помощника Bing Chat иллюстрирует движение индустрии в сторону мультимодальных возможностей в LLM-системах, а также подчеркивает текущую конкуренцию в сфере мультимодальных LLM-систем, наце- ленных на взаимодействие с пользователем при помощи текста, изображений и голоса используя единый канал. Несмотря на потенциал мультимодальных LLM, они подвержены ограничениям тради- ционных текстовых LLM, таким как генерация неточных ответов. Кроме этого, использование изображений в качестве ввода представляет собой уникальные проблемы и риски, такие как косвенное внедрение запроса с последующим "отравление диалога" с целью влияния на будущее поведение модели в соответствии с вредоносными инструкциями. Возможность встра- ивания инструкций для LLM в передаваемые изображения, как подчеркнуто OpenAI, вызывает опасения относительно уязвимости модели перед внешними угрозами. Движение LLM-систем в сторону мультимодальности является одновременно возмож- ностью и вызовом для исследователей ИИ так и коммерческих разработчиков LLM-систем. Поскольку сфера LLM продолжает эволюционировать, для организаций крайне важно пони- мать возможности и риски, связанные с этой технологией, обеспечивая максимизацию пользы и минимизацию рисков потенциальных угроз.