Перейти до головного Перейти в головне навігаційне меню Перейти на нижній колонтитул сайту
Абай атындағы ҚазҰПУ Хабаршысы. Физика-математика ғылымдары сериясы

ҚАЗАҚ ТІЛІНЕ АРНАЛҒАН LLM ҮШІН ДЕРЕКТЕРДІ OCR АРҚЫЛЫ ДАЙЫНДАУ

Жарияланған March 2026

0

0

Н. Тойганбаева+
Әл-Фараби атындағы Қазақ ұлттық университеті, Алматы қ., Қазақстан
https://orcid.org/0000-0003-2661-8661
Ғ. Әбдіманап+
«ҚазМұнайГаз Инжиниринг» ЖШС, Астана қ., Қазақстан
https://orcid.org/0000-0003-1676-4075
А. Муса+
Әл-Фараби атындағы Қазақ ұлттық университеті, Алматы қ., Қазақстан
https://orcid.org/0009-0001-9972-7677
Н. Абдурахмонова+
Мирзо Ұлықбек атындағы Өзбекстан Үлттық Университеті, Ташкент қ., Өзбекстан
https://orcid.org/0000-0001-9195-5723
Әл-Фараби атындағы Қазақ ұлттық университеті, Алматы қ., Қазақстан
«ҚазМұнайГаз Инжиниринг» ЖШС, Астана қ., Қазақстан
Әл-Фараби атындағы Қазақ ұлттық университеті, Алматы қ., Қазақстан
Мирзо Ұлықбек атындағы Өзбекстан Үлттық Университеті, Ташкент қ., Өзбекстан
Аңдатпа

Соңғы жылдары жасанды интеллект және үлкен тілдік модельдер (LLM) қарқынды дамуда. Бұл модельдердің тиімділігі оларды үйретуге пайдаланылған деректер сапасына тәуелді. Қазақ тіліне арналған құрылымдалған мәтіндік ресурстардың тапшылығы LLM дамытуда қиындық тудырады. Мақалада қазақ тіліндегі мәтіндерді OCR технологиясы арқылы цифрландыру және олардан JSON форматында сапалы датасет жасау қарастырылады. Жұмыстың мақсаты – қазақ мәтіндерін автоматты өңдеп, LLM оқытуға жарамды құрылымдалған деректер дайындау. Бұл үшін сканерленген құжаттар жиналып, Tesseract OCR арқылы танылып, JSON құрылымына келтірілді. Нәтижесінде 37 062 құжат өңделіп, LLaMA3.2 3B моделін қазақ тілінде оқытуға қолданылды. Модель ұлттық стильді меңгеріп, поэтикалық мәтіндер құра алды. Train/loss графигі оқыту тұрақтылығын көрсетті.

pdf
Тіл

Қазақ

Як цитувати

[1]
Тойганбаева, Н., Әбдіманап, Ғ. , Муса, А. і Абдурахмонова, Н. 2026. ҚАЗАҚ ТІЛІНЕ АРНАЛҒАН LLM ҮШІН ДЕРЕКТЕРДІ OCR АРҚЫЛЫ ДАЙЫНДАУ. Абай атындағы ҚазҰПУ Хабаршысы. Физика-математика ғылымдары сериясы. 93, 1 (Бер 2026), 251–260. DOI:https://doi.org/10.51889/2959-5894.2026.93.1.022.