Аннотация
В последнее время активно развиваются различные направления обработки искусственного языка, такие как поисковые системы, технологии машинного перевода, речевые технологии и т. д. с использованием технологий машинного обучения и нейронных сетей. Для реализации и развития этих направлений, в первую очередь, решаются задачи электронных лингвистических ресурсов, таких как корпуса, словари, своды правил и т.п. является острым. Эти ресурсы должны быть очень большого объема хорошего качества. В данной статье рассматривается проблема нехватки корпусов для малоресурсных языков, к которым относится тюркоязычная группа. Это проблема для языков с низким ресурсом, таких как казахский, потому что доступных корпусов очень мало. В данной статье представлен подход к созданию синтетических корпусов методом определения и замены слова-кандидата из списка синонимического словаря казахского языка. Были проведены тестовые эксперименты. В результате указанный корпус был увеличен в 3,37 раза.