Перейти к основному контенту Перейти к главному меню навигации Перейти к нижнему колонтитулу сайта
Вестник КазНПУ имени Абая. Серия: Физико-математические науки

ПОДГОТОВКА ДАННЫХ С ПОМОЩЬЮ OCR ДЛЯ LLM НА КАЗАХСКОМ ЯЗЫКЕ

Опубликован March 2026

0

0

Н. Тойганбаева+
Казахский национальный университет имени аль-Фараби, г. Алматы, Казахстан
https://orcid.org/0000-0003-2661-8661
Г. Абдиманап+
ТОО «КазМунайГаз Инжиниринг», г. Астана, Казахстан
https://orcid.org/0000-0003-1676-4075
А. Муса+
Казахский национальный университет имени аль-Фараби, г. Алматы, Казахстан
https://orcid.org/0009-0001-9972-7677
Н. Абдурахмонова+
Национальный университет Узбекистана имени Мирзо Улугбека, г. Ташкент, Узбекистан
https://orcid.org/0000-0001-9195-5723
Казахский национальный университет имени аль-Фараби, г. Алматы, Казахстан
ТОО «КазМунайГаз Инжиниринг», г. Астана, Казахстан
Казахский национальный университет имени аль-Фараби, г. Алматы, Казахстан
Национальный университет Узбекистана имени Мирзо Улугбека, г. Ташкент, Узбекистан
Аннотация

В последние годы наблюдается стремительное развитие искусственного интеллекта и крупных языковых моделей (LLM). Эффективность таких моделей во многом зависит от качества данных, использованных для их обучения. Недостаток структурированных текстовых ресурсов на казахском языке представляет собой серьёзную проблему для развития LLM. В данной статье рассматривается процесс оцифровки казахскоязычных текстов с помощью технологии OCR и создание на их основе качественного датасета в формате JSON. Цель работы – автоматическая обработка казахских текстов и подготовка структурированных данных, пригодных для обучения LLM. Для этого были собраны отсканированные документы, распознаны с помощью Tesseract OCR и преобразованы в структуру JSON. В результате было обработано 37 062 документа, которые использовались для обучения модели LLaMA 3.2 3B на казахском языке. Модель успешно освоила особенности национального стиля и смогла генерировать поэтические тексты. График train/loss продемонстрировал стабильность обучения.

pdf (Қазақ)
Язык

Қазақ

Как цитировать

[1]
Тойганбаева, Н., Абдиманап, Ғ. , Муса, А. и Абдурахмонова, Н. 2026. ПОДГОТОВКА ДАННЫХ С ПОМОЩЬЮ OCR ДЛЯ LLM НА КАЗАХСКОМ ЯЗЫКЕ. Вестник КазНПУ имени Абая. Серия: Физико-математические науки. 93, 1 (мар. 2026), 251–260. DOI:https://doi.org/10.51889/2959-5894.2026.93.1.022.