Выявление ненормативной лексики является важнейшей задачей в нынешнюю цифровую эпоху, что позволяет создавать эффективные системы модерации контента. Тем не менее, это создает проблемы в языках с ограниченными ресурсами, где доступны небольшие количества аннотированных данных. Эта исследовательская работа пытается решить проблему определения оскорбительного языка на малоресурсном языке, казахском языке. Мы предлагаем новый подход, основанный на сетях двунаправленной долговременной кратковременной памяти (BiLSTM), который продемонстрировал высокую эффективность в задачах обработки естественного языка, этот подход решает эту проблему.
Мы можем более точно идентифицировать оскорбительный язык во входном тексте, фиксируя как долгосрочные, так и контекстные зависимости, используя двунаправленный характер архитектуры BiLSTM. Чтобы уменьшить нехватку аннотированных данных при ограниченных ресурсах, наш метод также использует методы трансферного обучения. После проведения обширных экспериментов с набором данных оскорбительных языков в казахском языке мы демонстрируем эффективность предложенного нами метода. Эти эксперименты показывают самые современные результаты в определении оскорбительных языков в низкоресурсном казахском языке.
Кроме того, мы рассматриваем, как различные конфигурации модели и методы обучения влияют на эффективность нашего метода. Наше исследование дает полезную информацию о способах обнаружения оскорбительного языка в языках с низким уровнем ресурсов. Кроме того, они прокладывают путь к более надежным системам модерации контента, которые подходят для определенных языковых контекстов.