MODELING AND OPTIMIZATION OF A HYBRID HADOOP–SPARK ARCHITECTURE TO IMPROVE BIG DATA PROCESSING EFFICIENCY

А.Б. Касымова; Р.К. Өскенбаева; А. Разак; С. Алиаскаров; V. Elle

Том 94 № 2 (2026)

МОДЕЛИРОВАНИЕ И ОПТИМИЗАЦИЯ ГИБРИДНОЙ АРХИТЕКТУРЫ HADOOP–SPARK ДЛЯ ПОВЫШЕНИЯ ЭФФЕКТИВНОСТИ ОБРАБОТКИ БОЛЬШИХ ДАННЫХ

Опубликован July 2026

0

А.Б. Касымова⁺⁻

Казахский Национальный Исследовательский Технический Университет им. К.И. Сатпаева, Алматы, Казахстан

Р.К. Өскенбаева⁺⁻

Казахский Национальный Исследовательский Технический Университет им. К.И. Сатпаева, Алматы, Казахстан

А. Разак⁺⁻

Арканзасский технологический университет, Расселвилл, США

С. Алиаскаров⁺⁻

Международный университет информационных технологий, Казахстан, Алматы

V. Elle⁺⁻

1 Казахский Национальный Исследовательский Технический Университет им. К.И. Сатпаева, Алматы, Казахстан

Казахский Национальный Исследовательский Технический Университет им. К.И. Сатпаева, Алматы, Казахстан

Арканзасский технологический университет, Расселвилл, США

Международный университет информационных технологий, Казахстан, Алматы

1 Казахский Национальный Исследовательский Технический Университет им. К.И. Сатпаева, Алматы, Казахстан

Аннотация

В условиях стремительного роста объёмов, разнородности и интенсивности поступления данных повышаются требования к архитектурам, обеспечивающим не только высокую производительность, но и устойчивую масштабируемость, рациональное использование вычислительных ресурсов и отказоустойчивость. В статье рассматривается гибридная архитектура обработки больших данных, объединяющая распределённую файловую систему Hadoop Distributed File System и механизмы оперативной обработки Apache Spark. Цель исследования заключается в разработке формализованного подхода к оценке и оптимизации эффективности гибридной среды по сравнению с автономным использованием Hadoop и Spark.

В работе предложена система аналитических моделей, описывающих скорость обработки, масштабируемость, использование ресурсов, накладные издержки и интегральную эффективность гибридной архитектуры. В отличие от исследований, ограничивающихся сравнением платформ на уровне общих характеристик или изолированных бенчмарков, в данной статье внимание сосредоточено на взаимосвязи между хранением данных, межузловым обменом, вычислительной нагрузкой и параметрами конфигурации кластера. Показано, что объединение механизмов распределённого хранения Hadoop с in-memory-обработкой Spark позволяет снизить влияние дискового ввода-вывода, повысить устойчивость к росту нагрузки и обеспечить более сбалансированное использование памяти и процессорных ресурсов.

Полученные результаты подтверждают, что гибридная архитектура является перспективным решением для построения масштабируемых аналитических платформ, ориентированных на обработку гетерогенных данных в условиях переменных и интенсивных нагрузок. Практическая значимость исследования состоит в возможности использования предложенных моделей при проектировании и настройке региональных и корпоративных систем аналитики больших данных.

Ключевые слова

Большие данные, гибридная архитектура, Hadoop, Spark, распределённые вычисления, масштабируемость, оптимизация, эффективность обработки данных, отказоустойчивость, вычислительные ресурсы.

Язык

English

Как цитировать

[1]

Касымова A., Өскенбаева R., Разак A., Алиаскаров S. и Elle, V. 2026. МОДЕЛИРОВАНИЕ И ОПТИМИЗАЦИЯ ГИБРИДНОЙ АРХИТЕКТУРЫ HADOOP–SPARK ДЛЯ ПОВЫШЕНИЯ ЭФФЕКТИВНОСТИ ОБРАБОТКИ БОЛЬШИХ ДАННЫХ. Вестник КазНПУ имени Абая. Серия: Физико-математические науки. 94, 2 (июл. 2026).

МОДЕЛИРОВАНИЕ И ОПТИМИЗАЦИЯ ГИБРИДНОЙ АРХИТЕКТУРЫ HADOOP–SPARK ДЛЯ ПОВЫШЕНИЯ ЭФФЕКТИВНОСТИ ОБРАБОТКИ БОЛЬШИХ ДАННЫХ

Скачать ссылку