![]() |
ИСТИНА |
Войти в систему Регистрация |
ИПМех РАН |
||
Данное исследование нацелено на то, чтобы оценить сходства и различия лингвистической компетенции носителей языка и больших языковых моделей (БЯМ). Материалом для сравнения служит созданный нами корпус вариативного согласования (КВаС). Он содержит 7125 предложений с оценками по шкале от 1 до 7, полученными при проведении 21 синтаксического эксперимента по изучению вариативного согласования. Корпус фиксирует средние оценки русских предложений с различными условиями согласования, полученные от носителей языка, и позволяет выяснить, как БЯМ справляются с градуальной оценкой приемлемости. Мы приводим результаты тестирования трех моделей: преимущественно русскоязычной YandexGPT 5 Pro, мультиязычных Llama 3.3 70B и Mistral Large. Оценка производилась на данных 15 экспериментов, включающих 5373 предложения. Для каждой модели было опробовано два режима тестирования: zero-shot, содержащий только инструкцию, и few-shot, где добавлены тренировочные предложения и их оценки. Поскольку данные в КВаС демонстрируют различный уровень приемлемости в зависимости от экспериментальных условий, подсчет средней ошибки для предсказанных моделями оценок недостаточно показателен. Нами разработана метрика, позволяющая оценить, какая доля контрастов между экспериментальными условиями, релевантными для людей, выявляется с помощью БЯМ. Результаты показывают, что качество моделей проседает для одного и того же феномена – предикативного согласования с сочиненными личными местоимениями 1 и 2 лица при порядке слов SV. Наиболее точно модели определяют контрасты для конструкций с управляющими квантификаторами в позиции подлежащего. Наименьшее количество контрастов выделяют модели Llama и YandexGPT. Наиболее точное совпадение при выделении значимых контрастов по сравнению с носителями языка демонстрирует Mistral. Добавление примеров в режиме few-shot улучшает среднее качество, но различие незначительно. Результаты показывают, что качество решения задачи градуальной оценки приемлемости сильно отличается для разных классов лингвистических феноменов и зависит от частоты встречаемости конструкций в обучающих данных БЯМ. Сравнение моделей демонстрирует, что для достижения лучшего качества оказывается важным не объем русскоязычных данных при обучении, а количество параметров модели.