Деректер көлемінің, гетерогенділіктің және қарқындылықтың тез өсуімен жоғары өнімділікті ғана емес, сонымен қатарсенімді масштабталуды, есептеу ресурстарын тиімді пайдалануды және ақауларға төзімділікті қамтамасыз ететінархитектураларға қойылатын талаптар артып келеді. Бұл мақалада Hadoop таратылған файлдық жүйесі мен Apache Spark операциялық өңдеу механизмдерін біріктіретін гибридті үлкен деректерді өңдеу архитектурасы қарастырылады. Зерттеудіңмақсаты - Hadoop және Spark-ты дербес пайдаланумен салыстырғанда гибридті ортаның тиімділігін бағалау жәнеоңтайландырудың формальды тәсілін әзірлеу.
Мақалада өңдеу жылдамдығын, масштабталуын, ресурстарды пайдалануын, үстеме шығындарын және гибридтіархитектураның жалпы тиімділігін сипаттайтын аналитикалық модельдер жүйесі ұсынылады. Платформалардысалыстыруды жалпы сипаттамалармен немесе оқшауланған эталондармен шектейтін зерттеулерден айырмашылығы, бұлмақала деректерді сақтау, түйіндер арасындағы байланыс, есептеу жүктемесі және кластер конфигурациясы параметрлеріарасындағы байланысқа бағытталған. Hadoop таратылған сақтау механизмдерін Spark жадындағы өңдеумен біріктірудискінің енгізу/шығару әсерін азайтатыны, жүктеменің артуына төзімділікті жақсартатыны және жад пен CPU ресурстарынтеңгерімді пайдалануды қамтамасыз ететіні көрсетілген.
Бұл нәтижелер гибридті архитектураның айнымалы және қарқынды жұмыс жүктемелері кезінде гетерогенді деректердіөңдеуге арналған масштабталатын аналитикалық платформаларды құру үшін перспективалы шешім екенін растайды. Бұлзерттеудің практикалық маңыздылығы ұсынылған модельдерді аймақтық және кәсіпорындық үлкен деректерді талдаужүйелерін жобалау мен конфигурациялауда әлеуетті пайдалануда жатыр.