Жаңартылған ақпарат көлемінің экспоненциалды өсуі ақпаратты іздеу міндетін қиындатады. Машиналық оқыту алгоритмдері мәтіндерді жіктеу арқылы іздеу кеңістігін автоматты түрде азайтуға көмектеседі. Бұл жұмыста жаңалық мәтіндерін (жаңалықтар, мақалалар, сұхбаттар және блогтар) жіктеу белгілерін анықтау, талдау және таңдау мәселесі қарастырылады. Ақпараттық белгілерін алу үшін біз жаңалықтар мәтіндерінің әрбір жанрының негізгі сипаттамаларын анықтадық. Біз ашық қолжетімділікпен ресми ақпараттық порталдардан алынған жаңалықтар корпусын жасадық және мәтіннің құрылымдық кұрделілігін, егжей-тегжейлілігін және бейнеліліігін қарастыратын белгілерді анықтадық. Атап айтқанда, біз кұрделілік сипаттамаларын (лексикалық әртұрлілік, лексикалық тығыздық, тыныс белгілері, сөйлемнің орташа ұзақтығы, тұлғалық есімдіктердің саны, оқылу көрсеткіші), егжей-тегжейлі сипаттамалар (жалпы есімдер, сандар, айларға байланысты сөздер және т.б. саны), бейнелеу сипаттамаларын (PoS тегтері, квантор сөздері, көпше тұрдегі зат есімдер) қолданамыз. Нәтижелер осы белгілердің ұйлесімі жаңалықтар мәтіндерін жіктеудің жоғары дәлдігін қамтамасыз ететіндігін көрсетеді.
ОНЛАЙН ЖАҢАЛЫҚТАРЫН ЖІКТЕУ ЕРЕКШЕЛІКТЕРІН АНЫҚТАУ ЖӘНЕ ТАЛДАУ
Жарияланған March 2023
132
56
Аңдатпа
Тіл
English
Дәйексөздерді қалай жазу керек
[1]
Ualiyeva, I. і Mussabayev , R. 2023. ОНЛАЙН ЖАҢАЛЫҚТАРЫН ЖІКТЕУ ЕРЕКШЕЛІКТЕРІН АНЫҚТАУ ЖӘНЕ ТАЛДАУ. Абай атындағы ҚазҰПУ Хабаршысы. Физика-математика ғылымдары сериясы. 81, 1 (Бер 2023), 178–185. DOI:https://doi.org/10.51889/2959-5894.2023.81.1.020.