С развитием технологий распознавания мультимедийных образов, которая позволяет извлекать и анализировать большие объемы мультимедийной информации из видео- и аудио- источников, наблюдается большой рост применения технологии машинного обучения с использованием глубокого обучения для решения различных задач. Распознавание речевых эмоций (или классификация) – одна из самых сложных тем в науке о данных. В этой работе, мы использовали архитектуру на основе MLP-классификатора, которая извлекает мел-частотные кепстрал коэффициенты, хромограммы, мел-шкале спектрограммы из звуковых файлов и использует их в качестве входных данных нейронной сети для идентификации эмоций, используя образцы из Райерсон аудиовизуальной базе эмоциональной речи и песни (RAVDESS). Была разработана модель нейронной сети для распознавания четырех эмоций (спокойствие, гнев, страх, отвращение). Данная модель классифицирует речевые эмоции с точностью 83,33%.
РАСПОЗНАВАНИЕ РЕЧЕВЫХ ЭМОЦИЙ С ПОМОЩЬЮ МАШИННОГО ОБУЧЕНИЯ
Опубликован June 2022
268
279
Аннотация
Язык
Русский
Как цитировать
[1]
Ералханова, А., Есенбай, М., Мухтарова, А., Жексебай, Д. и Кожагулов, Е. 2022. РАСПОЗНАВАНИЕ РЕЧЕВЫХ ЭМОЦИЙ С ПОМОЩЬЮ МАШИННОГО ОБУЧЕНИЯ. Вестник КазНПУ имени Абая. Серия: Физико-математические науки. 78, 2 (июн. 2022), 102–108. DOI:https://doi.org/10.51889/2022-2.1728-7901.13.