Перейти к основному контенту Перейти к главному меню навигации Перейти к нижнему колонтитулу сайта

Уважаемые пользователи! На нашем хостинге ведутся технические работы, на сайте могут быть ошибки. Приносим свои извинения за временные неудобства.

Вестник КазНПУ имени Абая, Серия «Физико-математические науки»

НЕЙРОННЫЕ АРХИТЕКТУРЫ ДЛЯ ОПРЕДЕЛЕНИЯ ПОЛА И ИДЕНТИФИКАЦИИ ГОВОРЯЩЕГО

Опубликован June 2024
Казахский национальный женский педагогический университет, г. Алматы, Казахстан
Казахский национальный университет имени аль-Фараби, г. Алматы, Казахстан
Казахский национальный университет имени аль-Фараби, г. Алматы, Казахстан
Аннотация

В этой статье мы исследуем две нейронные архитектуры для задач определения пола и идентификации говорящего, используя функции мелкочастотных кепстральных коэффициентов (MFCC), которые не охватывают характеристики, связанные с голосом. Одна из наших целей – сравнить различные нейронные архитектуры, многослойный персептрон (MLP) и сверточные нейронные сети (CNNS) для обеих задач с различными настройками и автоматически изучить особенности, характерные для пола/ говорящего. Экспериментальные результаты показывают, что модели, использующие z-оценку и преобразование матрицы Грамиана, дают лучшие результаты, чем модели, использующие только максимальную-минимальную нормализацию MFCC. С точки зрения времени обучения, MLP требует больших периодов обучения для сходимости, чем CNN. Другие экспериментальные результаты показывают, что MLP превосходят CNN в решении обеих задач с точки зрения ошибок обобщения.

Язык

Рус

Как цитировать

[1]
Мекебаев , Н., Даркенбаев, Д. и Алтыбай, А. 2024. НЕЙРОННЫЕ АРХИТЕКТУРЫ ДЛЯ ОПРЕДЕЛЕНИЯ ПОЛА И ИДЕНТИФИКАЦИИ ГОВОРЯЩЕГО. Вестник КазНПУ имени Абая, Серия «Физико-математические науки». 86, 2 (июн. 2024). DOI:https://doi.org/10.51889/2959-5894.2024.86.2.021.