• Eng
  • Қаз
pdf (Eng)

Ключевые слова

корпусы
казахский язык
синонимы
лингвистические ресурсы

Как цитировать

[1]
Rakhimova, D., Adali, E., Shormakova, A., Turarbek, A. и Suleimenov, Y. 2022. ЗАДАЧА СОЗДАНИЯ СИНТЕТИЧЕСКИХ КОРПУСОВ ДЛЯ МАЛОРЕСУРСНОГО ЯЗЫКА. Вестник «Физико-математические науки». 80, 4 (дек. 2022), 169–179. DOI:https://doi.org/10.51889/2938.2022.14.84.020.

Аннотация

В последнее время активно развиваются различные направления обработки искусственного языка, такие как поисковые системы, технологии машинного перевода, речевые технологии и т. д. с использованием технологий машинного обучения и нейронных сетей. Для реализации и развития этих направлений, в первую очередь, решаются задачи электронных лингвистических ресурсов, таких как корпуса, словари, своды правил и т.п. является острым. Эти ресурсы должны быть очень большого объема хорошего качества. В данной статье рассматривается проблема нехватки корпусов для малоресурсных языков, к которым относится тюркоязычная группа. Это проблема для языков с низким ресурсом, таких как казахский, потому что доступных корпусов очень мало. В данной статье представлен подход к созданию синтетических корпусов методом определения и замены слова-кандидата из списка синонимического словаря казахского языка. Были проведены тестовые эксперименты. В результате указанный корпус был увеличен в 3,37 раза.

https://doi.org/10.51889/2938.2022.14.84.020
pdf (Eng)