Перейти к основному контенту Перейти к главному меню навигации Перейти к нижнему колонтитулу сайта
Вестник КазНПУ имени Абая. Серия: Физико-математические науки

ИДЕНТИФИКАЦИЯ НЕЦЕНЗУРНЫХ КОМЕНТАРИИ ПРИ ИСПОЛЬЗОВАНИЕМ ДВУНАПРАВЛЕННУЮ ДОЛГУЮ – КРАТКОСРОЧНУЮ ПАМЯТИ

Опубликован December 2023

127

64

Б.С. Омаров+
Казахский Национальный университет имени Аль-Фараби, г.Алматы, Казахстан
А.Б. Токтарова+
Международный казахско-турецкий Университет имени Х.А.Ясави, г.Туркестан, Казахстан
Ж.Ж. Ажибекова +
Казахский Национальный медицинский университет имени С. Д. Асфендиярова. Г.Алматы, Казахстан
Г.С. Рахимбаева+
Казахский Национальный медицинский университет имени С. Д. Асфендиярова. Г.Алматы, Казахстан
Г.И. Бейсенова+
Южно-Казахстанский университет имени М.Ауезова, г.Шымкент. Казакстан
Казахский Национальный университет имени Аль-Фараби, г.Алматы, Казахстан
Международный казахско-турецкий Университет имени Х.А.Ясави, г.Туркестан, Казахстан
Казахский Национальный медицинский университет имени С. Д. Асфендиярова. Г.Алматы, Казахстан
Казахский Национальный медицинский университет имени С. Д. Асфендиярова. Г.Алматы, Казахстан
Южно-Казахстанский университет имени М.Ауезова, г.Шымкент. Казакстан
Аннотация

Выявление ненормативной лексики является важнейшей задачей в нынешнюю цифровую эпоху, что позволяет создавать эффективные системы модерации контента. Тем не менее, это создает проблемы в языках с ограниченными ресурсами, где доступны небольшие количества аннотированных данных. Эта исследовательская работа пытается решить проблему определения оскорбительного языка на малоресурсном языке, казахском языке. Мы предлагаем новый подход, основанный на сетях двунаправленной долговременной кратковременной памяти (BiLSTM), который продемонстрировал высокую эффективность в задачах обработки естественного языка, этот подход решает эту проблему.

Мы можем более точно идентифицировать оскорбительный язык во входном тексте, фиксируя как долгосрочные, так и контекстные зависимости, используя двунаправленный характер архитектуры BiLSTM. Чтобы уменьшить нехватку аннотированных данных при ограниченных ресурсах, наш метод также использует методы трансферного обучения. После проведения обширных экспериментов с набором данных оскорбительных языков в казахском языке мы демонстрируем эффективность предложенного нами метода. Эти эксперименты показывают самые современные результаты в определении оскорбительных языков в низкоресурсном казахском языке.

Кроме того, мы рассматриваем, как различные конфигурации модели и методы обучения влияют на эффективность нашего метода. Наше исследование дает полезную информацию о способах обнаружения оскорбительного языка в языках с низким уровнем ресурсов. Кроме того, они прокладывают путь к более надежным системам модерации контента, которые подходят для определенных языковых контекстов.

pdf (Қазақ)
Язык

Қазақ

Как цитировать

[1]
Омаров, Б., Тоқтарова, А., Ажибекова, Ж., Рахимбаева, Г. и Бейсенова, Г. 2023. ИДЕНТИФИКАЦИЯ НЕЦЕНЗУРНЫХ КОМЕНТАРИИ ПРИ ИСПОЛЬЗОВАНИЕМ ДВУНАПРАВЛЕННУЮ ДОЛГУЮ – КРАТКОСРОЧНУЮ ПАМЯТИ. Вестник КазНПУ имени Абая. Серия: Физико-математические науки. 84, 4 (дек. 2023), 173–182. DOI:https://doi.org/10.51889/2959-5894.2023.84.4.017.