Деректер көлемінің қарқынды өсуі жағдайында олардың теңгерімсіздігі мәселесі жіктеу тапсырмаларында негізгі кедергілердің біріне айналып, машиналық оқыту модельдерінің дәлдігі мен жалпылау қабілетін айтарлықтай төмендетеді. Осы зерттеудің мақсаты – теңгерімсіз деректер жиындарында жіктеу дәлдігін арттыру үшін деректерді алдын ала өңдеу әдістері мен ансамбльдік оқытуды біріктіретін гибридті модельді әзірлеу және қолдану. Қойылған міндеттер аясында сыныптар теңгерімсіздігі мәселесін шешудің қолданыстағы тәсілдеріне, соның ішінде қайта іріктеу әдістеріне (oversampling және undersampling), сынып салмақтарын ескеретін алгоритмдерге, сондай-ақ заманауи ансамбльдік әдістерге талдау жүргізілді.
Зерттеу әдіснамасы синтетикалық деректер генерациясын градиенттік бустинг және кездейсоқ орман алгоритмдерімен интеграциялауға негізделген. Бұл тәсіл миноритарлық сыныпқа сезімталдықты арттыра отырып, модельдің қайта үйренуіне (overfitting) төзімділігін сақтауға мүмкіндік береді. Ұсынылған гибридті модель әртүрлі деңгейдегі теңгерімсіздікке ие ашық және қолданбалы деректер жиындарында апробациядан өтті. Тиімділікті бағалау теңгерімсіз деректерге бейімделген метрикалар арқылы жүргізілді, оның ішінде F1-өлшемі, balanced accuracy және басқа көрсеткіштері пайдаланылды.
Алынған нәтижелер базалық модельдермен салыстырғанда, әсіресе миноритарлық сыныпты анықтау тұрғысынан, жіктеу сапасының статистикалық тұрғыдан мәнді жақсарғанын көрсетті. Зерттеудің ғылыми маңыздылығы – теңгерімсіз деректер жағдайында жіктеу тиімділігін арттыруға бағытталған қайта жаңғыртылатын тәсілді ұсынуында, бұл машиналық оқыту әдістерін медицина, қаржы және тәуекелдерді талдау сияқты салаларда қолдану мүмкіндіктерін кеңейтеді.