Данный обзор систематизирует и анализирует современные подходы к интеллектуальному обнаружению аномалий в поведении человека на основе глубокого обучения в системах видеонаблюдения. Работа исследует ключевые методы, включая гибридные архитектуры, генеративные модели и мультимодальные подходы. Основная цель исследования — определить ключевые ограничения существующих решений и предложить пути их преодоления путём разработки новой концептуальной архитектуры.
Анализ показал, что современные модели достигают высокой точности (F1-score в диапазоне 90−95%) на стандартных датасетах, но сталкиваются с тремя фундаментальными проблемами: дефицит размеченных данных об аномалиях, высокая вычислительная сложность, препятствующая работе в реальном времени на edge-устройствах, и низкая надёжность при внешних помехах.
Для решения этих проблем предложена гибридная мультимодальная архитектура, использующая анализ в сжатом представлении (compressed-domain analysis) для оптимизации скорости инференса и механизм перекрёстного внимания (Gated Cross-Attention) для интеллектуального слияния видео- и аудиопотоков. Предложенная архитектура демонстрирует потенциал для создания надёжной, масштабируемой и проактивной системы мониторинга.
https://orcid.org/0009-0001-4436-5154