В обычных средах автоматического распознавания речи (ASR) используется GMM-HMM для акустического моделирования и n-грамм для языкового моделирования. В течение последнего десятилетия нейронная сеть с глубокой прямой связью (DFNN) почти заменила GMM в акустическом моделировании. Современные системы ASR в основном зависят от акустической модели DFNN-HMM и языковой модели n-грамм (LM). Из-за лучшей способности отображения долгосрочного контекста, LM на основе рекуррентной нейронной сети (RNN) на данный момент были учтены, чтобы давать меньше затруднений, чем LM n-грамм. В последнее время разновидность RNN, долговременная память (LSTM), была эффективно исследована в акустическом моделировании. Как ни странно, оценка системы ASR, использующей как акустическую, так и семантическую демонстрацию на основе RNN, еще не учтена. Кроме того, мы отмечаем, что большинство этих достижений исследуются только в контексте ASR взрослых. Убежденные этими работами, в этой статье мы исследуем акустическое моделирование на основе LSTM в сочетании с LM на основе RNN для детского ASR. Наши исследовательские результаты показывают, что такое консолидированное моделирование на основе RNN оказывается жизнеспособным как для скоординированных, так и для несовместимых детских задач ASR.
ИССЛЕДОВАНИЕ АКУСТИЧЕСКОГО И ЛИНГВИСТИЧЕСКОГО МОДЕЛИРОВАНИЯ НА ОСНОВЕ ПОВТОРЯЮЩИХСЯ НЕЙРОННЫХ СЕТЕЙ ДЛЯ РАСПОЗНАВАНИЯ РЕЧИ ДЕТЕЙ
Опубликован March 2022
163
125
Аннотация
Язык
Қазақ
Как цитировать
[1]
Мекебаев, Н., Түйебаев, Ш., Сабраев, Қ. и Еркебай, А. 2022. ИССЛЕДОВАНИЕ АКУСТИЧЕСКОГО И ЛИНГВИСТИЧЕСКОГО МОДЕЛИРОВАНИЯ НА ОСНОВЕ ПОВТОРЯЮЩИХСЯ НЕЙРОННЫХ СЕТЕЙ ДЛЯ РАСПОЗНАВАНИЯ РЕЧИ ДЕТЕЙ. Вестник КазНПУ имени Абая. Серия: Физико-математические науки. 77, 1 (мар. 2022), 119–126. DOI:https://doi.org/10.51889/2022-1.1728-7901.16.