Перейти к основному контенту Перейти к главному меню навигации Перейти к нижнему колонтитулу сайта
Вестник КазНПУ имени Абая, Серия «Физико-математические науки»

ЗАДАЧА СОЗДАНИЯ СИНТЕТИЧЕСКИХ КОРПУСОВ ДЛЯ МАЛОРЕСУРСНОГО ЯЗЫКА

Опубликован 12-2022
Казахский Национальный университет имени Аль-Фараби, г.Алматы
Стамбульский технический университет, г. Стамбул
Казахский Национальный университет имени Аль-Фараби, г.Алматы
Казахский Национальный университет имени Аль-Фараби, г.Алматы
Институт информационно-вычислительных технологий, г. Алматы
Аннотация

В последнее время активно развиваются различные направления обработки искусственного языка, такие как поисковые системы, технологии машинного перевода, речевые технологии и т. д. с использованием технологий машинного обучения и нейронных сетей. Для реализации и развития этих направлений, в первую очередь, решаются задачи электронных лингвистических ресурсов, таких как корпуса, словари, своды правил и т.п. является острым. Эти ресурсы должны быть очень большого объема хорошего качества. В данной статье рассматривается проблема нехватки корпусов для малоресурсных языков, к которым относится тюркоязычная группа. Это проблема для языков с низким ресурсом, таких как казахский, потому что доступных корпусов очень мало. В данной статье представлен подход к созданию синтетических корпусов методом определения и замены слова-кандидата из списка синонимического словаря казахского языка. Были проведены тестовые эксперименты. В результате указанный корпус был увеличен в 3,37 раза.

pdf (Eng)
Язык

Eng

Как цитировать

[1]
Rakhimova, D., Adali, E., Shormakova, A., Turarbek, A. и Suleimenov, Y. 2022. ЗАДАЧА СОЗДАНИЯ СИНТЕТИЧЕСКИХ КОРПУСОВ ДЛЯ МАЛОРЕСУРСНОГО ЯЗЫКА. Вестник КазНПУ имени Абая, Серия «Физико-математические науки». 80, 4 (дек. 2022), 169–179. DOI:https://doi.org/10.51889/2938.2022.14.84.020.