ҒАЙБАТ ПІКІРЛЕРДІ АНЫҚТАУДА ЕКІ БАҒЫТТЫ ҰЗАҚ – ҚЫСҚА МЕРЗІМДІ ЖАД ЖЕЛІСІН ҚОЛДАНУ

Б.С. Омаров; А.Б. Токтарова; Ж.Ж. Ажибекова; Г.С. Рахимбаева; Г.И. Бейсенова

doi:10.51889/2959-5894.2023.84.4.017

Том 84 № 4 (2023)

ИДЕНТИФИКАЦИЯ НЕЦЕНЗУРНЫХ КОМЕНТАРИИ ПРИ ИСПОЛЬЗОВАНИЕМ ДВУНАПРАВЛЕННУЮ ДОЛГУЮ – КРАТКОСРОЧНУЮ ПАМЯТИ

Опубликован December 2023

204

146

Б.С. Омаров⁺⁻

Казахский Национальный университет имени Аль-Фараби, г.Алматы, Казахстан

А.Б. Токтарова⁺⁻

Международный казахско-турецкий Университет имени Х.А.Ясави, г.Туркестан, Казахстан

Ж.Ж. Ажибекова ⁺⁻

Казахский Национальный медицинский университет имени С. Д. Асфендиярова. Г.Алматы, Казахстан

Г.С. Рахимбаева⁺⁻

Казахский Национальный медицинский университет имени С. Д. Асфендиярова. Г.Алматы, Казахстан

Г.И. Бейсенова⁺⁻

Южно-Казахстанский университет имени М.Ауезова, г.Шымкент. Казакстан

Казахский Национальный университет имени Аль-Фараби, г.Алматы, Казахстан

Международный казахско-турецкий Университет имени Х.А.Ясави, г.Туркестан, Казахстан

Казахский Национальный медицинский университет имени С. Д. Асфендиярова. Г.Алматы, Казахстан

Южно-Казахстанский университет имени М.Ауезова, г.Шымкент. Казакстан

DOI: 10.51889/2959-5894.2023.84.4.017

Аннотация

Выявление ненормативной лексики является важнейшей задачей в нынешнюю цифровую эпоху, что позволяет создавать эффективные системы модерации контента. Тем не менее, это создает проблемы в языках с ограниченными ресурсами, где доступны небольшие количества аннотированных данных. Эта исследовательская работа пытается решить проблему определения оскорбительного языка на малоресурсном языке, казахском языке. Мы предлагаем новый подход, основанный на сетях двунаправленной долговременной кратковременной памяти (BiLSTM), который продемонстрировал высокую эффективность в задачах обработки естественного языка, этот подход решает эту проблему.

Мы можем более точно идентифицировать оскорбительный язык во входном тексте, фиксируя как долгосрочные, так и контекстные зависимости, используя двунаправленный характер архитектуры BiLSTM. Чтобы уменьшить нехватку аннотированных данных при ограниченных ресурсах, наш метод также использует методы трансферного обучения. После проведения обширных экспериментов с набором данных оскорбительных языков в казахском языке мы демонстрируем эффективность предложенного нами метода. Эти эксперименты показывают самые современные результаты в определении оскорбительных языков в низкоресурсном казахском языке.

Кроме того, мы рассматриваем, как различные конфигурации модели и методы обучения влияют на эффективность нашего метода. Наше исследование дает полезную информацию о способах обнаружения оскорбительного языка в языках с низким уровнем ресурсов. Кроме того, они прокладывают путь к более надежным системам модерации контента, которые подходят для определенных языковых контекстов.

pdf (Қазақ)

Ключевые слова

нецензурная речь малоресурсный язык BiLSTM алгоритмы машинного обучение

Язык

Қазақ

Как цитировать

[1]

Омаров, Б., Токтарова, А., Ажибекова , Ж., Рахимбаева, Г. и Бейсенова, Г. 2023. ИДЕНТИФИКАЦИЯ НЕЦЕНЗУРНЫХ КОМЕНТАРИИ ПРИ ИСПОЛЬЗОВАНИЕМ ДВУНАПРАВЛЕННУЮ ДОЛГУЮ – КРАТКОСРОЧНУЮ ПАМЯТИ. Вестник КазНПУ имени Абая. Серия: Физико-математические науки. 84, 4 (дек. 2023), 173–182. DOI:https://doi.org/10.51889/2959-5894.2023.84.4.017.

ИДЕНТИФИКАЦИЯ НЕЦЕНЗУРНЫХ КОМЕНТАРИИ ПРИ ИСПОЛЬЗОВАНИЕМ ДВУНАПРАВЛЕННУЮ ДОЛГУЮ – КРАТКОСРОЧНУЮ ПАМЯТИ

Скачать ссылку