В условиях стремительного роста объёмов, разнородности и интенсивности поступления данных повышаются требования к архитектурам, обеспечивающим не только высокую производительность, но и устойчивую масштабируемость, рациональное использование вычислительных ресурсов и отказоустойчивость. В статье рассматривается гибридная архитектура обработки больших данных, объединяющая распределённую файловую систему Hadoop Distributed File System и механизмы оперативной обработки Apache Spark. Цель исследования заключается в разработке формализованного подхода к оценке и оптимизации эффективности гибридной среды по сравнению с автономным использованием Hadoop и Spark.
В работе предложена система аналитических моделей, описывающих скорость обработки, масштабируемость, использование ресурсов, накладные издержки и интегральную эффективность гибридной архитектуры. В отличие от исследований, ограничивающихся сравнением платформ на уровне общих характеристик или изолированных бенчмарков, в данной статье внимание сосредоточено на взаимосвязи между хранением данных, межузловым обменом, вычислительной нагрузкой и параметрами конфигурации кластера. Показано, что объединение механизмов распределённого хранения Hadoop с in-memory-обработкой Spark позволяет снизить влияние дискового ввода-вывода, повысить устойчивость к росту нагрузки и обеспечить более сбалансированное использование памяти и процессорных ресурсов.
Полученные результаты подтверждают, что гибридная архитектура является перспективным решением для построения масштабируемых аналитических платформ, ориентированных на обработку гетерогенных данных в условиях переменных и интенсивных нагрузок. Практическая значимость исследования состоит в возможности использования предложенных моделей при проектировании и настройке региональных и корпоративных систем аналитики больших данных.