НЕЙРОННЫЕ АРХИТЕКТУРЫ ДЛЯ ОПРЕДЕЛЕНИЯ ПОЛА И ИДЕНТИФИКАЦИИ ГОВОРЯЩЕГО

Н.О Мекебаев; Д.К. Даркенбаев; А. Алтыбай

doi:10.51889/2959-5894.2024.86.2.021

Том 86 № 2 (2024)

НЕЙРОННЫЕ АРХИТЕКТУРЫ ДЛЯ ОПРЕДЕЛЕНИЯ ПОЛА И ИДЕНТИФИКАЦИИ ГОВОРЯЩЕГО

Опубликован June 2024

89

63

Н.О Мекебаев ⁺⁻

Казахский национальный женский педагогический университет, г. Алматы, Казахстан

Д.К. Даркенбаев⁺⁻

Казахский национальный университет имени аль-Фараби, г. Алматы, Казахстан

А. Алтыбай⁺⁻

Казахский национальный университет имени аль-Фараби, г. Алматы, Казахстан

Казахский национальный женский педагогический университет, г. Алматы, Казахстан

Казахский национальный университет имени аль-Фараби, г. Алматы, Казахстан

DOI: 10.51889/2959-5894.2024.86.2.021

Аннотация

В этой статье мы исследуем две нейронные архитектуры для задач определения пола и идентификации говорящего, используя функции мелкочастотных кепстральных коэффициентов (MFCC), которые не охватывают характеристики, связанные с голосом. Одна из наших целей – сравнить различные нейронные архитектуры, многослойный персептрон (MLP) и сверточные нейронные сети (CNNS) для обеих задач с различными настройками и автоматически изучить особенности, характерные для пола/ говорящего. Экспериментальные результаты показывают, что модели, использующие z-оценку и преобразование матрицы Грамиана, дают лучшие результаты, чем модели, использующие только максимальную-минимальную нормализацию MFCC. С точки зрения времени обучения, MLP требует больших периодов обучения для сходимости, чем CNN. Другие экспериментальные результаты показывают, что MLP превосходят CNN в решении обеих задач с точки зрения ошибок обобщения.

pdf

Ключевые слова

MLP, CNN, ASR; NN, определение пола; идентификация говорящего.

Язык

Русский

Как цитировать

[1]

Мекебаев , Н., Даркенбаев, Д. и Алтыбай, А. 2024. НЕЙРОННЫЕ АРХИТЕКТУРЫ ДЛЯ ОПРЕДЕЛЕНИЯ ПОЛА И ИДЕНТИФИКАЦИИ ГОВОРЯЩЕГО. Вестник КазНПУ имени Абая. Серия: Физико-математические науки. 86, 2 (июн. 2024), 222–234. DOI:https://doi.org/10.51889/2959-5894.2024.86.2.021.

НЕЙРОННЫЕ АРХИТЕКТУРЫ ДЛЯ ОПРЕДЕЛЕНИЯ ПОЛА И ИДЕНТИФИКАЦИИ ГОВОРЯЩЕГО

Скачать ссылку