Перейти к основному контенту Перейти к главному меню навигации Перейти к нижнему колонтитулу сайта
Вестник КазНПУ имени Абая, Серия «Физико-математические науки»

АЛГОРИТМ СБОРА ТЕКСТОВЫХ ДАННЫХ НА КАЗАХСКОМ ЯЗЫКЕ

Опубликован 06-2020
Казахский Национальный Университет им. Аль-Фараби, г. Алматы
Казахский Национальный Университет им. Аль-Фараби, г. Алматы
Аннотация

Работа посвящена созданию системы автоматического сбора и обработки открытых данных на казахском языке с ресурсов сети интернет, и несет в себе практическую значимость в задачах сбора и анализа текста. Во введении обосновывается актуальность выбранной темы, обзор существующих подходов, формулируются задачи исследования. Рассматривается такая задача, как сбор и первичная обработка текстовых данных с последующим анализом. Сбор данных является первоочередной задачей, так как открытые данные с ресурсов сети интернет не структурированы и нуждаются в обработке. Авторы предоставляют систему обработки веб страниц казахскоязычных порталов, а также приводят практическое применение данного подхода на реальных данных открытых ресурсов с помощью созданной системы. Представлен подход индексирования документов с помощью признаков. Система поможет структурировать открытые данные с ресурсов сети интернет, а также провести анализ собранных данных. Представлены практические результаты.

.pdf
Язык

Рус

Как цитировать

[1]
Рахимова, Д. и Сатыбалдиев, .А. 2020. АЛГОРИТМ СБОРА ТЕКСТОВЫХ ДАННЫХ НА КАЗАХСКОМ ЯЗЫКЕ . Вестник КазНПУ имени Абая, Серия «Физико-математические науки». 70, 2 (июн. 2020), 283–289. DOI:https://doi.org/10.51889/2020-2.1728-7901.45.