Нейросетевой метод представления и нейросетевое распознавание частотно-временных векторов речевой информации

Баяковский, Ю.М.; Жирков, А.О.; Корчагин, Д.Н.; Лукин, А.С.; Крылов, А.С.

Статья опубликована в журнале из списка RSCI Web of Science

Информация о цитировании статьи получена из Scopus
Статья опубликована в журнале из перечня ВАК
Статья опубликована в журнале из списка Web of Science и/или Scopus
Дата последнего поиска статьи во внешних источниках: 24 января 2020 г.

Авторы: Баяковский Ю.М., Жирков А.О., Корчагин Д.Н., Лукин А.С., Крылов А.С.
Журнал: Программирование
Номер: 4
Год издания: 2003
Первая страница: 41
Последняя страница: 52
Аннотация: Currently, various time-frequency representations are often used for sound analysis. These representations, on the one hand, are convenient for visible sensation of sound by a human and, on the other hand, can be used for automatically analyzing sound pictures. In this paper, various methods for representation of sound as two-dimensional time-frequency vectors of a fixed dimension and their use for speech and speaker recognition problems are discussed. Probabilistic, distance-based, and neural-network methods for the recognition of these vectors by examples of separate words are considered. Numerical experiments showed that the best among them is the method based on a three-layer neural network, the short-time Fourier transform, and the two-dimensional wavelet transformation. For the speaker recognition problem, a distance-based recognition method employing the adaptive Hermite transform turned out the best among all.
Добавил в систему: Баяковский Юрий Матвеевич

	ИСТИНА	Войти в систему Регистрация
	ИПМех РАН
	Главная Поиск Статистика О проекте Помощь

ИСТИНА

ИПМех РАН

Нейросетевой метод представления и нейросетевое распознавание частотно-временных векторов речевой информациистатья