Просмотр информации в Интернете в повседневной жизни стал обычным занятием для пользователей компьютеров. Поскольку каждый день в Интернете публикуются тысячи интернет-новостей, эффективно найти и обобщить соответствующие документы сложно. Таким образом, метод извлечения ключевых слов или ключевых фраз используется для предоставления основного содержимого конкретной веб-страницы. В связи с такими потребностями использование ключевых слов позволяет читателю легко и быстро получить доступ к необходимой информации. В этой статье были протестированы алгоритмы Случайног леса и Экстремального повышения градиента, являющиеся алгоритмами машинного обучения. Результаты были получены на наборе данных 500N-KPCrowd, который состоит из новостного контента на английском языке, широко используемом в литературе, и сравнивались с результатами, полученными на наборах данных на казахском языке. Для казахстанского набора данных самый высокий результат в литературе был достигнут с лучшим показателем F1 равным 0,97. Для набора данных 500N-KPCrowd был получен лучший показатель F1-0,70.
ИЗВЛЕЧЕНИЕ КЛЮЧЕВЫХ СЛОВ ИЗ КАЗАХСКОГО ТЕКСТА С ПОМОЩЬЮ АЛГОРИТМОВ МАШИННОГО ОБУЧЕНИЯ
Опубликован March 2024
153
82
Аннотация
Язык
English
Как цитировать
[1]
Abibullayeva А., Kazbekova, G. и Zhunissov, N. 2024. ИЗВЛЕЧЕНИЕ КЛЮЧЕВЫХ СЛОВ ИЗ КАЗАХСКОГО ТЕКСТА С ПОМОЩЬЮ АЛГОРИТМОВ МАШИННОГО ОБУЧЕНИЯ. Вестник КазНПУ имени Абая. Серия: Физико-математические науки. 85, 1 (мар. 2024), 106–113. DOI:https://doi.org/10.51889/2959-5894.2024.85.1.010.