Онлайн контенттегі ғадауат тілді сөздерді анықтау бүгінгі цифрлық дәуірде мазмұнды модерациялаудың тиімді жүйелерін дамытуға мүмкіндік беретін маңызды міндет болып табылады. Дегенмен, дайын бейәдеп тілден құралған мәліметтер қоры аз тілдерде оларды анықтау біршама қиындықтар тудыратынын байқауға болады. Бұл зерттеу жұмысында ғадауат тілді сөздерді анықтау бойынша мәліметтер ресурсы төмен тіл ретінде қазақ тілді контекстерді шеуге бағытталады.
Ұсынылған тапсырманы шешу үшін біз табиғи тілді өңдеу алгоритмдерінде жоғары нәтиже көрсеткен екі бағытты ұзақ - қысқа мерзімді жады (BiLSTM) желілеріне негізделген жаңа тәсілді ұсынамыз. BiLSTM архитектурасының екі жақты сипатын пайдалана отырып, біз бейәдеп тілдің дәлірек сәйкестендірілуін қамтамасыз ететін кіріс мәтініндегі контекстік және ұзақ мерзімді тәуелділіктерді аламыз. Біз ұсынып отырған әдісте сонымен қатар трансферлі оқыту әдістерін ресустары аз тілдердің деректердің жетіспеушілігін азайту үшін де қолдануға болады. Қазақ тілінің ғадауат тілді сөздер деректер жинағымен бірқатар эксперимент жүргізу арқылы біз ресурсы төмен қазақ тіліндегі ғадауат тілді сөздерді анықтауда соңғы нәтижелерге қол жеткізе отырып, ұсынылған әдісіміздің тиімділігін көрсетеміз.
Сонымен қатар, біз әртүрлі үлгі конфигурацияларының және оқыту стратегияларының біздің әдісте жұмыс істеу тиімділігін талдаймыз. Біздің зерттеуіміздің нәтижелері ресурсы аз тілдердегі ғадауат тілді сөздердіанықтау әдістері туралы мәліметтер ұсына алады және нақты тілдік контексттерге бейімделген мазмұнды модерациялау жүйелеріне жол ашады.