Контролируемая генерация синтетических данных для задачи диаризации - доклад на конференции | ИСТИНА – Интеллектуальная Система Тематического Исследования НАукометрических данных

Авторы: Майсурадзе А.И., Попов Д.Н.
Международная Конференция : 15-я Международная конференция "Интеллектуализация обработки информации"
Даты проведения конференции: 23 сентября - 25 октября 2024
Дата доклада: 26 сентября 2024
Тип доклада: Устный
Докладчик: Майсурадзе А.И.
Место проведения: г.Гродно, Беларусь
Аннотация доклада:
Задача диаризации заключается в определении говорящего в каждый момент времени и является актуальной и сложной задачей в области обработки речевых данных. Важным этапом диаризации является сегментация аудиоряда, которая включает выделение сегментов речи одного говорящего и определение интервалов перекрывающейся речи. Современные модели диаризации требуют больших объемов данных с точной разметкой для обучения. Обычно обучение моделей сегментации происходит на реальных наборах данных, полученных при помощи ручной разметки. Это представляет собой дорогостоящий и трудоемкий процесс. В современных диаризационных системах тема синтетических данных либо не затрагивается, либо упоминается без описания процедуры их создания. В данной работе мы предлагаем метод генерации синтетических данных из примеров речи различных говорящих для обучения моделей и демонстрируем его применимость для обучения моделей сегментации аудиоряда.
Добавил в систему: Майсурадзе Арчил Ивериевич

	ИСТИНА	Войти в систему Регистрация
	ИПМех РАН
	Главная Поиск Статистика О проекте Помощь

ИСТИНА

ИПМех РАН

Контролируемая генерация синтетических данных для задачи диаризациидоклад на конференции

Прикрепленные файлы