Соңғы жылдары жасанды интеллект және үлкен тілдік модельдер (LLM) қарқынды дамуда. Бұл модельдердің тиімділігі оларды үйретуге пайдаланылған деректер сапасына тәуелді. Қазақ тіліне арналған құрылымдалған мәтіндік ресурстардың тапшылығы LLM дамытуда қиындық тудырады. Мақалада қазақ тіліндегі мәтіндерді OCR технологиясы арқылы цифрландыру және олардан JSON форматында сапалы датасет жасау қарастырылады. Жұмыстың мақсаты – қазақ мәтіндерін автоматты өңдеп, LLM оқытуға жарамды құрылымдалған деректер дайындау. Бұл үшін сканерленген құжаттар жиналып, Tesseract OCR арқылы танылып, JSON құрылымына келтірілді. Нәтижесінде 37 062 құжат өңделіп, LLaMA3.2 3B моделін қазақ тілінде оқытуға қолданылды. Модель ұлттық стильді меңгеріп, поэтикалық мәтіндер құра алды. Train/loss графигі оқыту тұрақтылығын көрсетті.
Тіл
Қазақ
Як цитувати
[1]
Тойганбаева, Н., Әбдіманап, Ғ. , Муса, А. і Абдурахмонова, Н. 2026. ҚАЗАҚ ТІЛІНЕ АРНАЛҒАН LLM ҮШІН ДЕРЕКТЕРДІ OCR АРҚЫЛЫ ДАЙЫНДАУ. Абай атындағы ҚазҰПУ Хабаршысы. Физика-математика ғылымдары сериясы. 93, 1 (Бер 2026), 251–260. DOI:https://doi.org/10.51889/2959-5894.2026.93.1.022.
https://orcid.org/0000-0003-2661-8661