В этой статье мы исследуем две нейронные архитектуры для задач определения пола и идентификации говорящего, используя функции мелкочастотных кепстральных коэффициентов (MFCC), которые не охватывают характеристики, связанные с голосом. Одна из наших целей – сравнить различные нейронные архитектуры, многослойный персептрон (MLP) и сверточные нейронные сети (CNNS) для обеих задач с различными настройками и автоматически изучить особенности, характерные для пола/ говорящего. Экспериментальные результаты показывают, что модели, использующие z-оценку и преобразование матрицы Грамиана, дают лучшие результаты, чем модели, использующие только максимальную-минимальную нормализацию MFCC. С точки зрения времени обучения, MLP требует больших периодов обучения для сходимости, чем CNN. Другие экспериментальные результаты показывают, что MLP превосходят CNN в решении обеих задач с точки зрения ошибок обобщения.
НЕЙРОННЫЕ АРХИТЕКТУРЫ ДЛЯ ОПРЕДЕЛЕНИЯ ПОЛА И ИДЕНТИФИКАЦИИ ГОВОРЯЩЕГО
Опубликован June 2024
56
32
Аннотация
Язык
Русский
Как цитировать
[1]
Мекебаев , Н., Даркенбаев, Д. и Алтыбай, А. 2024. НЕЙРОННЫЕ АРХИТЕКТУРЫ ДЛЯ ОПРЕДЕЛЕНИЯ ПОЛА И ИДЕНТИФИКАЦИИ ГОВОРЯЩЕГО. Вестник КазНПУ имени Абая. Серия: Физико-математические науки. 86, 2 (июн. 2024), 222–234. DOI:https://doi.org/10.51889/2959-5894.2024.86.2.021.