В последние годы наблюдается стремительное развитие искусственного интеллекта и крупных языковых моделей (LLM). Эффективность таких моделей во многом зависит от качества данных, использованных для их обучения. Недостаток структурированных текстовых ресурсов на казахском языке представляет собой серьёзную проблему для развития LLM. В данной статье рассматривается процесс оцифровки казахскоязычных текстов с помощью технологии OCR и создание на их основе качественного датасета в формате JSON. Цель работы – автоматическая обработка казахских текстов и подготовка структурированных данных, пригодных для обучения LLM. Для этого были собраны отсканированные документы, распознаны с помощью Tesseract OCR и преобразованы в структуру JSON. В результате было обработано 37 062 документа, которые использовались для обучения модели LLaMA 3.2 3B на казахском языке. Модель успешно освоила особенности национального стиля и смогла генерировать поэтические тексты. График train/loss продемонстрировал стабильность обучения.
ПОДГОТОВКА ДАННЫХ С ПОМОЩЬЮ OCR ДЛЯ LLM НА КАЗАХСКОМ ЯЗЫКЕ
Опубликован March 2026
0
0
Аннотация
Язык
Қазақ
Как цитировать
[1]
Тойганбаева, Н., Абдиманап, Ғ. , Муса, А. и Абдурахмонова, Н. 2026. ПОДГОТОВКА ДАННЫХ С ПОМОЩЬЮ OCR ДЛЯ LLM НА КАЗАХСКОМ ЯЗЫКЕ. Вестник КазНПУ имени Абая. Серия: Физико-математические науки. 93, 1 (мар. 2026), 251–260. DOI:https://doi.org/10.51889/2959-5894.2026.93.1.022.
https://orcid.org/0000-0003-2661-8661