В последнее время активно развиваются различные направления обработки искусственного языка, такие как поисковые системы, технологии машинного перевода, речевые технологии и т. д. с использованием технологий машинного обучения и нейронных сетей. Для реализации и развития этих направлений, в первую очередь, решаются задачи электронных лингвистических ресурсов, таких как корпуса, словари, своды правил и т.п. является острым. Эти ресурсы должны быть очень большого объема хорошего качества. В данной статье рассматривается проблема нехватки корпусов для малоресурсных языков, к которым относится тюркоязычная группа. Это проблема для языков с низким ресурсом, таких как казахский, потому что доступных корпусов очень мало. В данной статье представлен подход к созданию синтетических корпусов методом определения и замены слова-кандидата из списка синонимического словаря казахского языка. Были проведены тестовые эксперименты. В результате указанный корпус был увеличен в 3,37 раза.
ЗАДАЧА СОЗДАНИЯ СИНТЕТИЧЕСКИХ КОРПУСОВ ДЛЯ МАЛОРЕСУРСНОГО ЯЗЫКА
Опубликован December 2022
124
115
Аннотация
Язык
English
Как цитировать
[1]
Rakhimova, D., Adali, E., Shormakova, A., Turarbek, A. и Suleimenov, Y. 2022. ЗАДАЧА СОЗДАНИЯ СИНТЕТИЧЕСКИХ КОРПУСОВ ДЛЯ МАЛОРЕСУРСНОГО ЯЗЫКА. Вестник КазНПУ имени Абая. Серия: Физико-математические науки. 80, 4 (дек. 2022), 169–179. DOI:https://doi.org/10.51889/2938.2022.14.84.020.