Перейти к основному контенту Перейти к главному меню навигации Перейти к нижнему колонтитулу сайта
Вестник КазНПУ имени Абая. Серия: Физико-математические науки

ЗАДАЧА СОЗДАНИЯ СИНТЕТИЧЕСКИХ КОРПУСОВ ДЛЯ МАЛОРЕСУРСНОГО ЯЗЫКА

Опубликован December 2022

124

115

Д. Рахимова+
Казахский Национальный университет имени Аль-Фараби, г.Алматы
Э. Адали+
Стамбульский технический университет, г. Стамбул
А. Шормакова+
Казахский Национальный университет имени Аль-Фараби, г.Алматы
А. Турарбек+
Казахский Национальный университет имени Аль-Фараби, г.Алматы
Е. Сулейменов +
Институт информационно-вычислительных технологий, г. Алматы
Казахский Национальный университет имени Аль-Фараби, г.Алматы
Стамбульский технический университет, г. Стамбул
Казахский Национальный университет имени Аль-Фараби, г.Алматы
Казахский Национальный университет имени Аль-Фараби, г.Алматы
Институт информационно-вычислительных технологий, г. Алматы
Аннотация

В последнее время активно развиваются различные направления обработки искусственного языка, такие как поисковые системы, технологии машинного перевода, речевые технологии и т. д. с использованием технологий машинного обучения и нейронных сетей. Для реализации и развития этих направлений, в первую очередь, решаются задачи электронных лингвистических ресурсов, таких как корпуса, словари, своды правил и т.п. является острым. Эти ресурсы должны быть очень большого объема хорошего качества. В данной статье рассматривается проблема нехватки корпусов для малоресурсных языков, к которым относится тюркоязычная группа. Это проблема для языков с низким ресурсом, таких как казахский, потому что доступных корпусов очень мало. В данной статье представлен подход к созданию синтетических корпусов методом определения и замены слова-кандидата из списка синонимического словаря казахского языка. Были проведены тестовые эксперименты. В результате указанный корпус был увеличен в 3,37 раза.

pdf (English)
Язык

English

Как цитировать

[1]
Rakhimova, D., Adali, E., Shormakova, A., Turarbek, A. и Suleimenov, Y. 2022. ЗАДАЧА СОЗДАНИЯ СИНТЕТИЧЕСКИХ КОРПУСОВ ДЛЯ МАЛОРЕСУРСНОГО ЯЗЫКА. Вестник КазНПУ имени Абая. Серия: Физико-математические науки. 80, 4 (дек. 2022), 169–179. DOI:https://doi.org/10.51889/2938.2022.14.84.020.