![]() |
ИСТИНА |
Войти в систему Регистрация |
ИПМех РАН |
||
В высоконагруженных системах, рабоающих с многомиллиардными документами, требуется быстрая и точная обработка огромных потоков данных. Для этой цели встраивается компонент, который, как правило, обозначают "R" (англ. «Retriever»). Математически, "R" - есть функция, которая по заданному запросу пользователя "q" и огромной базе документов "C", позволяет получить небольшое (не более десяти) множество данных, наиболее подходящих для детального анализа. Классическим подходом до сих пор остается использование статистических методов вложения данных, например, известный алгоритм "BM25", который в силу особенности вложения текстовых документов работает быстро и точно, однако сильно ошибается на данных, богатых словами-омонимами или описанных морфологически сложным и богатым языком. Возникает вопрос: можно ли реализовать систему поиска, которая будет не сильно проигрывать "BM25" в скорости и очень сильно выигрывать в точности, моделируя вложение данных нейронными сетями, учитывающими контекст, такими как, например "BERT" ?
№ | Имя | Описание | Имя файла | Размер | Добавлен |
---|---|---|---|---|---|
1. | Полный текст | diploma.pdf | 2,6 МБ | 31 августа 2021 [MrAtheist] |