ПОВЫШЕНИЕ ТОЧНОСТИ КЛАССИФИКАЦИИ НА НЕСБАЛАНСИРОВАННЫХ ДАННЫХ С ИСПОЛЬЗОВАНИЕМ ГИБРИДНОЙ МОДЕЛИ

А.Ж. Скакова; Г.Н. Астаубаева; С.Н. Исабаева; Э.А. Абдыкеримова; А. Тастанбек

Том 94 № 2 (2026)

ПОВЫШЕНИЕ ТОЧНОСТИ КЛАССИФИКАЦИИ НА НЕСБАЛАНСИРОВАННЫХ ДАННЫХ С ИСПОЛЬЗОВАНИЕМ ГИБРИДНОЙ МОДЕЛИ

Опубликован July 2026

0

А.Ж. Скакова⁺⁻

Египетский университет исламской культуры Нур-Мубарак, г. Алматы, Казахстан

Г.Н. Астаубаева⁺⁻

Университет Нархоз

С.Н. Исабаева⁺⁻

Казахская национальная академия искусств имени Темирбека Жургенова

Э.А. Абдыкеримова ⁺⁻

Каспийский университет технологий и инжиниринга имени Ш.Есенова

А. Тастанбек⁺⁻

Университет Туран

Египетский университет исламской культуры Нур-Мубарак, г. Алматы, Казахстан

Университет Нархоз

Казахская национальная академия искусств имени Темирбека Жургенова

Каспийский университет технологий и инжиниринга имени Ш.Есенова

Университет Туран

Аннотация

В условиях стремительного роста объемов данных проблема их несбалансированности становится одной из ключевых в задачах классификации, существенно снижая точность и обобщающую способность моделей машинного обучения. Целью данного исследования является повышение точности классификации на несбалансированных наборах данных за счет разработки и применения гибридной модели, сочетающей методы предварительной обработки данных и ансамблевого обучения. В рамках поставленных задач проведен анализ существующих подходов к решению проблемы дисбаланса классов, включая методы ресэмплинга (oversampling и undersampling), алгоритмы с учетом весов классов, а также современные ансамблевые техники.

Методология исследования основывается на интеграции синтетической генерации данных с градиентным бустингом и алгоритмами случайного леса, что позволяет одновременно повысить чувствительность к миноритарному классу и сохранить устойчивость модели к переобучению. Предложенная гибридная модель была апробирована на ряде открытых и прикладных датасетов с различной степенью дисбаланса классов. Оценка эффективности проводилась с использованием метрик, адекватных несбалансированным данным, включая F1-меру, balanced accuracy и другие.

Полученные результаты демонстрируют статистически значимое улучшение качества классификации по сравнению с базовыми моделями, особенно в части распознавания миноритарного класса. Научная значимость исследования заключается в разработке воспроизводимого подхода к повышению эффективности классификации в условиях дисбаланса данных, что расширяет возможности применения методов машинного обучения в таких областях, как медицина, финансы и анализ рисков.

Ключевые слова

несбалансированные данные; классификация; гибридная модель; машинное обучение; SMOTE; градиентный бустинг; F1-мера; ROC-AUC.

Язык

Русский

Как цитировать

[1]

Скакова, А., Астаубаева, Г., Исабаева, С., Абдыкеримова , Э. и Тастанбек, А. 2026. ПОВЫШЕНИЕ ТОЧНОСТИ КЛАССИФИКАЦИИ НА НЕСБАЛАНСИРОВАННЫХ ДАННЫХ С ИСПОЛЬЗОВАНИЕМ ГИБРИДНОЙ МОДЕЛИ. Вестник КазНПУ имени Абая. Серия: Физико-математические науки. 94, 2 (июл. 2026).

ПОВЫШЕНИЕ ТОЧНОСТИ КЛАССИФИКАЦИИ НА НЕСБАЛАНСИРОВАННЫХ ДАННЫХ С ИСПОЛЬЗОВАНИЕМ ГИБРИДНОЙ МОДЕЛИ

Скачать ссылку