В условиях стремительного роста объемов данных проблема их несбалансированности становится одной из ключевых в задачах классификации, существенно снижая точность и обобщающую способность моделей машинного обучения. Целью данного исследования является повышение точности классификации на несбалансированных наборах данных за счет разработки и применения гибридной модели, сочетающей методы предварительной обработки данных и ансамблевого обучения. В рамках поставленных задач проведен анализ существующих подходов к решению проблемы дисбаланса классов, включая методы ресэмплинга (oversampling и undersampling), алгоритмы с учетом весов классов, а также современные ансамблевые техники.
Методология исследования основывается на интеграции синтетической генерации данных с градиентным бустингом и алгоритмами случайного леса, что позволяет одновременно повысить чувствительность к миноритарному классу и сохранить устойчивость модели к переобучению. Предложенная гибридная модель была апробирована на ряде открытых и прикладных датасетов с различной степенью дисбаланса классов. Оценка эффективности проводилась с использованием метрик, адекватных несбалансированным данным, включая F1-меру, balanced accuracy и другие.
Полученные результаты демонстрируют статистически значимое улучшение качества классификации по сравнению с базовыми моделями, особенно в части распознавания миноритарного класса. Научная значимость исследования заключается в разработке воспроизводимого подхода к повышению эффективности классификации в условиях дисбаланса данных, что расширяет возможности применения методов машинного обучения в таких областях, как медицина, финансы и анализ рисков.