Перейти к основному контенту Перейти к главному меню навигации Перейти к нижнему колонтитулу сайта
Вестник КазНПУ имени Абая. Серия: Физико-математические науки

ИНТЕГРАЛЬНЫЙ (END-TO-END) СИНТЕЗ РЕЧИ ДЛЯ КАЗАХСКОГО ЯЗЫКА

Опубликован September 2022

194

72

Ж. Кожирбаев+
National Laboratory Astana, г. Нур-Султан
Ж. Есенбаев+
National Laboratory Astana, г. Нур-Султан
National Laboratory Astana, г. Нур-Султан
National Laboratory Astana, г. Нур-Султан
Аннотация

Синтез речи, также называемый преобразованием текста в речь (TTS), считается одной из важных задач обработки речи наряду с распознаванием речи. Это способ преобразования данного текста в речь. Существует несколько подходов синтеза речи. В 20 веке была разработана первая компьютерная система синтеза голоса. Некоторыми из ранних методов компьютерного синтеза речи являются артикуляционный синтез, формантный синтез и конкатенативный синтез. Статистический параметрический синтез речи позже был предложен по мере развития машинного обучения. С 2010-х годов синтез речи на основе нейронных сетей постепенно становится все более популярным и улучшает качество голоса. Целью данной работы является обзор статистических параметрических и сквозных методов, которые можно рассматривать как линию эволюционного развития TTS. Кроме того, мы проведем эксперимент со сквозным методом на базе Tacotron2 и ParalleWavegan. Для экспериментов были собраны текстовые материалы произведений Ахмета Байтурсынулы. Всего из собранных материалов было записано 50 часов аудиозаписи. Из произведений Байтурсынулы было отобрано шесть книг, из которых были отобраны наиболее распространенные произведения и собраны в аудиотекстовые материалы. Один профессиональный диктор-мужчина озвучивал собранные текстовые данные.

pdf
Язык

Русский

Как цитировать

[1]
Кожирбаев, Ж. и Есенбаев, Ж. 2022. ИНТЕГРАЛЬНЫЙ (END-TO-END) СИНТЕЗ РЕЧИ ДЛЯ КАЗАХСКОГО ЯЗЫКА. Вестник КазНПУ имени Абая. Серия: Физико-математические науки. 79, 3 (сен. 2022), 196–203. DOI:https://doi.org/10.51889/9340.2022.21.68.023.