Перейти к основному контенту Перейти к главному меню навигации Перейти к нижнему колонтитулу сайта
Вестник «Физико-математические науки»

ИДЕНТИФИКАЦИЯ И АНАЛИЗ ПРИЗНАКОВ ДЛЯ КЛАССИФИКАЦИИ ОНЛАЙН НОВОСТЕЙ

Опубликован 03-2023
Казахский национальный университет им. аль-Фараби, г. Алматы
Институт информационных и вычислительных технологий, г.Алматы
Аннотация

Экспоненциальный рост количества актуальной информации затрудняет задачу информационного поиска. Алгоритмы машинного обучения помогают нам автоматически снижать пространство поиска путем классификации текстов. В данной работе рассматривается задача выявления, анализа и отбора признаков для классификации новостных текстов (новости, статьи, интервью и блоги). Для получения наиболее информативных признаков мы выявили основные характеристики каждого жанра новостных текстов. Мы создали корпус новостей, взятых из официальных информационных порталов с открытым доступом, и выявили признаки, которые рассматривают структурную сложность, детализацию и образность текста. В частности, мы используем характеристики сложности (лексическое разнообразие, лексическая плотность, пунктуация, средняя длина предложения, количество личных местоимений, индекс читабельности), характеристики детализации (количество имен собственных, цифр, слов, связанных с датами и пр.), характеристики образности (PoS-теги, слова-квантификаторы, существительные во множественном числе). Результаты показывают, что совокупность этих признаков обеспечивает высокую точность классификации новостных текстов.

pdf (Eng)
Язык

Eng

Как цитировать

[1]
Ualiyeva, I. и Mussabayev , R. 2023. ИДЕНТИФИКАЦИЯ И АНАЛИЗ ПРИЗНАКОВ ДЛЯ КЛАССИФИКАЦИИ ОНЛАЙН НОВОСТЕЙ . Вестник «Физико-математические науки». 81, 1 (мар. 2023), 178–185. DOI:https://doi.org/10.51889/2959-5894.2023.81.1.020.