Перейти к основному контенту Перейти к главному меню навигации Перейти к нижнему колонтитулу сайта
Вестник КазНПУ имени Абая. Серия: Физико-математические науки

НЕЙРОННЫЕ АРХИТЕКТУРЫ ДЛЯ ОПРЕДЕЛЕНИЯ ПОЛА И ИДЕНТИФИКАЦИИ ГОВОРЯЩЕГО

Опубликован June 2024

56

32

Н.О Мекебаев +
Казахский национальный женский педагогический университет, г. Алматы, Казахстан
Д.К. Даркенбаев+
Казахский национальный университет имени аль-Фараби, г. Алматы, Казахстан
А. Алтыбай+
Казахский национальный университет имени аль-Фараби, г. Алматы, Казахстан
Казахский национальный женский педагогический университет, г. Алматы, Казахстан
Казахский национальный университет имени аль-Фараби, г. Алматы, Казахстан
Казахский национальный университет имени аль-Фараби, г. Алматы, Казахстан
Аннотация

В этой статье мы исследуем две нейронные архитектуры для задач определения пола и идентификации говорящего, используя функции мелкочастотных кепстральных коэффициентов (MFCC), которые не охватывают характеристики, связанные с голосом. Одна из наших целей – сравнить различные нейронные архитектуры, многослойный персептрон (MLP) и сверточные нейронные сети (CNNS) для обеих задач с различными настройками и автоматически изучить особенности, характерные для пола/ говорящего. Экспериментальные результаты показывают, что модели, использующие z-оценку и преобразование матрицы Грамиана, дают лучшие результаты, чем модели, использующие только максимальную-минимальную нормализацию MFCC. С точки зрения времени обучения, MLP требует больших периодов обучения для сходимости, чем CNN. Другие экспериментальные результаты показывают, что MLP превосходят CNN в решении обеих задач с точки зрения ошибок обобщения.

pdf
Язык

Русский

Как цитировать

[1]
Мекебаев , Н., Даркенбаев, Д. и Алтыбай, А. 2024. НЕЙРОННЫЕ АРХИТЕКТУРЫ ДЛЯ ОПРЕДЕЛЕНИЯ ПОЛА И ИДЕНТИФИКАЦИИ ГОВОРЯЩЕГО. Вестник КазНПУ имени Абая. Серия: Физико-математические науки. 86, 2 (июн. 2024), 222–234. DOI:https://doi.org/10.51889/2959-5894.2024.86.2.021.