БАЛАЛАРДЫҢ СӨЙЛЕУІН ТАНУ ҮШІН ҚАЙТАЛАНАТЫН НЕЙРОНДЫҚ ЖЕЛІЛЕР НЕГІЗІНДЕ АКУСТИКАЛЫҚ ЖӘНЕ ЛИНГВИСТИКАЛЫҚ МОДЕЛЬДЕУДІ ЗЕРТТЕУ

Н.О. Мекебаев; Ш.М. Түйебаев; Қ.Ж. Сабраев; А.Қ. Еркебай

doi:10.51889/2022-1.1728-7901.16

Том 77 № 1 (2022)

ИССЛЕДОВАНИЕ АКУСТИЧЕСКОГО И ЛИНГВИСТИЧЕСКОГО МОДЕЛИРОВАНИЯ НА ОСНОВЕ ПОВТОРЯЮЩИХСЯ НЕЙРОННЫХ СЕТЕЙ ДЛЯ РАСПОЗНАВАНИЯ РЕЧИ ДЕТЕЙ

Опубликован March 2022

183

143

Н.О. Мекебаев⁺⁻

Казахский национальный женский педагогический университет

Ш.М. Түйебаев⁺⁻

Казахский национальный университет им. аль-Фараби, г.Алматы, Казахстан

https://orcid.org/0000-0001-9769-1239

Қ.Ж. Сабраев⁺⁻

Казахский национальный педагогический университет имени Абая, г.Алматы, Казахстан

https://orcid.org/0000-0001-9141-4935

А.Қ. Еркебай⁺⁻

Казахский национальный женский педагогический университет, г.Алматы, Казахстан

https://orcid.org/0000-0002-5812-2137

Казахский национальный женский педагогический университет

Казахский национальный университет им. аль-Фараби, г.Алматы, Казахстан

Казахский национальный педагогический университет имени Абая, г.Алматы, Казахстан

Казахский национальный женский педагогический университет, г.Алматы, Казахстан

DOI: 10.51889/2022-1.1728-7901.16

Аннотация

В обычных средах автоматического распознавания речи (ASR) используется GMM-HMM для акустического моделирования и n-грамм для языкового моделирования. В течение последнего десятилетия нейронная сеть с глубокой прямой связью (DFNN) почти заменила GMM в акустическом моделировании. Современные системы ASR в основном зависят от акустической модели DFNN-HMM и языковой модели n-грамм (LM). Из-за лучшей способности отображения долгосрочного контекста, LM на основе рекуррентной нейронной сети (RNN) на данный момент были учтены, чтобы давать меньше затруднений, чем LM n-грамм. В последнее время разновидность RNN, долговременная память (LSTM), была эффективно исследована в акустическом моделировании. Как ни странно, оценка системы ASR, использующей как акустическую, так и семантическую демонстрацию на основе RNN, еще не учтена. Кроме того, мы отмечаем, что большинство этих достижений исследуются только в контексте ASR взрослых. Убежденные этими работами, в этой статье мы исследуем акустическое моделирование на основе LSTM в сочетании с LM на основе RNN для детского ASR. Наши исследовательские результаты показывают, что такое консолидированное моделирование на основе RNN оказывается жизнеспособным как для скоординированных, так и для несовместимых детских задач ASR.

.pdf

Ключевые слова

Автоматическое распознавание речи (ASR), повторяющиеся нейронные сети (RNN), языковое моделирование (LM), акустическое моделирование (AM), LSTM, DFNN.

Язык

Қазақ

Как цитировать

[1]

Мекебаев, Н., Түйебаев, Ш., Сабраев, Қ. и Еркебай, А. 2022. ИССЛЕДОВАНИЕ АКУСТИЧЕСКОГО И ЛИНГВИСТИЧЕСКОГО МОДЕЛИРОВАНИЯ НА ОСНОВЕ ПОВТОРЯЮЩИХСЯ НЕЙРОННЫХ СЕТЕЙ ДЛЯ РАСПОЗНАВАНИЯ РЕЧИ ДЕТЕЙ. Вестник КазНПУ имени Абая. Серия: Физико-математические науки. 77, 1 (мар. 2022), 119–126. DOI:https://doi.org/10.51889/2022-1.1728-7901.16.

ИССЛЕДОВАНИЕ АКУСТИЧЕСКОГО И ЛИНГВИСТИЧЕСКОГО МОДЕЛИРОВАНИЯ НА ОСНОВЕ ПОВТОРЯЮЩИХСЯ НЕЙРОННЫХ СЕТЕЙ ДЛЯ РАСПОЗНАВАНИЯ РЕЧИ ДЕТЕЙ

Скачать ссылку