Видеонаблюдение

Сравнение систем видеонаблюдения и промышленных камер для распознавания характеристик транспортных средств

Перевод статьи: A Comparison Between CCTV and Industrial Cameras for Vehicle Attribute Recognition

Авторы:

1. Мохаммадреза Асади

2. Мохаммад Ясин Факха

3. Сейеде Соганд Хашеми

4. Сафийе Резаи

5. Мохаммад Кияни Абари

6. Сейед Алиреза Абаспур

Центр исследований искусственного интеллекта, компания HoopadVision
Исфахан, Иран

Ссылка на оригинал статьи: https://www.researchgate.net/publication/379721222_A_Comparison_Between_CCTV_and_Industrial_Cameras_for_Vehicle_Attribute_Recognition

___________________________________________________________

I. ВВЕДЕНИЕ

В области видеонаблюдения и обеспечения безопасности компьютерное зрение постепенно заменяет человеческий контроль. Одним из применений в видеонаблюдении является распознавание характеристик транспортных средств, таких как цвет и модель. Это может помочь полиции в идентификации преступников и отслеживании автомобилей [1].

Распознавание этих признаков обычно выполняется с использованием методов на основе компьютерного зрения, применяемых к изображениям, полученным с систем видеонаблюдения (CCTV). В рамках CCTV камеры классифицируются по различным критериям, включая различия между камерами с ночным видением и базовыми камерами, а также по типу подключения (аналоговые камеры, IP-камеры) и другим факторам. Кроме того, камеры могут отличаться по разрешению.

Более высокое разрешение позволяет получать более детализированные изображения, что повышает точность обнаружения и распознавания объектов на изображении. Несмотря на такие трудности, как низкое разрешение изображения, отсутствие достаточного освещения и другие, исследователи разработали программные решения с достаточной точностью для определения цвета и модели транспортного средства в системах CCTV.

В статье [2] представлена автоматизированная система Sighthound для распознавания марки, модели и цвета транспортных средств с использованием глубокой сверточной нейронной сети. Система достигает высоких результатов на различных тестах и обучена на большом наборе размеченных изображений.

В работе [3] была предложена новая структура сети MCFF-CNN для извлечения глубинных цветовых признаков автомобилей в сложных дорожных сценах при переменных условиях освещения. Полученные признаки используются совместно с классификатором на основе опорных векторов (SVM) для надежного распознавания цвета транспортных средств в условиях реального дорожного движения.

Исследование [4] решает проблему распознавания цвета автомобиля в условиях ограниченных вычислительных ресурсов с использованием сквозных сверточных нейронных сетей (CNN), что позволяет найти баланс между эффективностью и производительностью. Авторы провели обширный экспериментальный анализ различных архитектур CNN, учитывая структуру сети, размер, точность классификации цвета и вычислительную нагрузку.

В [5] предложен новый метод распознавания марки и модели автомобиля (VMMR) на основе изображений автомобиля в анфас с использованием механизма внимания и областей интереса (ROI), таких как фары, решетка радиатора, капот и бампер.

Исследование [6] предложило схему канального максимального объединения (CMP) для улучшения обобщающей способности сверточных нейронных сетей (CNN) для детальной классификации автомобилей. Схема CMP сжимает карты признаков внутри подгрупп, выбирая максимальное значение для каждого местоположения на разных картах признаков. Экспериментальные результаты показывают эффективность модифицированных CNN с CMP по сравнению с передовыми методами.

В статье [7] предложена структура на основе глубокого обучения, которая комбинирует семантические сегментационные маски с кластеризацией пикселей для автоматического распознавания цвета транспортных средств. Это позволяет независимо от угла обзора более точно идентифицировать цвет, что эффективно для целей видеонаблюдения.

Кроме улучшения алгоритмов п

рограммного обеспечения, использование камер с более высокими характеристиками может повысить точность идентификации характеристик автомобилей. Промышленные камеры – это специализированные устройства для создания изображений, предназначенные для жестких условий эксплуатации в производственных и промышленных средах. Они обеспечивают высокое разрешение и прочную конструкцию, а также поддерживают такие функции, как высокая скорость съемки и точная цветопередача.

Поэтому промышленные камеры могут быть подходящим вариантом для получения изображений автомобилей с целью распознавания их модели и цвета в приложениях для видеонаблюдения. В данном исследовании мы сравнили CCTV и промышленные камеры для распознавания цвета, и модели автомобиля, используя методы на основе глубокого обучения. Мы разработали и использовали неглубокую CNN и EfficientNet для распознавания цвета и модели автомобиля на изображениях, полученных с этих двух камер, соответственно, как показано на рис. 1. Указанные модели были обучены на наборах данных, которые мы создали. В заключение мы проанализировали результаты с использованием метрик и визуальных различий.

Сравнение систем видеонаблюдения и промышленных камер для распознавания характеристик транспортных средств

Рис. 1. Изображения, полученные промышленной камерой (слева) и системой видеонаблюдения (справа)

Дальнейшая структура статьи организована следующим образом: в разделе II представлено подробное исследование CCTV и промышленных камер, а также концепции используемых архитектур глубоких нейронных сетей. В разделе III обсуждается реализация предложенных алгоритмов с использованием обоих типов камер и аппаратной конфигурации. Раздел IV посвящен комплексному сравнению полученных результатов. Наконец, в разделе V приводится итоговое заключение.

II. Основные сведения

A. CCTV против Промышленных Камер

В компьютерном и машинном зрении камеры и объективы играют важнейшую роль в получении изображений. Камеры систем видеонаблюдения (CCTV) и промышленные камеры выполняют уникальные и значимые функции в этой области. Камеры CCTV, обычно ассоциирующиеся с безопасностью и видеонаблюдением, предназначены для мониторинга и записи активности в общественных местах, домах и на предприятиях.

Они часто акцентируют внимание на таких функциях, как широкие углы обзора, возможность ночного видения и простота установки для эффективного наблюдения. CCTV играет важную роль в предотвращении преступлений, обеспечении общественной безопасности и предоставлении ценных данных для расследований.

С другой стороны, промышленные камеры – это специализированные устройства для создания изображений, разработанные с акцентом на точность и надежность в условиях производства и промышленных сред. Эти камеры ориентированы на такие параметры, как высокое разрешение, цветовая точность и прочная конструкция, чтобы соответствовать строгим требованиям процессов контроля качества и инспекций.

Промышленные камеры незаменимы для обеспечения качества продукции, выявления дефектов и поддержания эффективности на производственных линиях. Несмотря на то, что обе категории камер стремятся к захвату визуальной информации, промышленные камеры превосходят CCTV по ряду характеристик, включая высококачественные сенсоры, улучшенное соотношение сигнал/шум (SNR), повышенную чувствительность и многое другое.

Этот уровень точности позволяет промышленным камерам создавать изображения с более высоким качеством. Это не только улучшает контроль, но и дает возможность извлекать более детализированную и ценную информацию по сравнению с камерами CCTV. В этом исследовании мы изучили влияние высокой производительности промышленных камер по сравнению с CCTV на распознавание цвета и модели транспортных средств как часть систем видеонаблюдения.

B. Архитектуры Глубоких Нейронных Сетей (DNN)

Глубокие нейронные сети (DNN) внесли значительные изменения в области искусственного интеллекта (AI), демонстрируя исключительные возможности в различных областях. Их адаптивность, поддерживаемая различными архитектурами, такими как сверточные нейронные сети (CNN) и рекуррентные нейронные сети (RNN), способствует успеху этих технологий.

Однако выбор оптимальной модели DNN сильно зависит от конкретного применения: например, CNN более подходят для задач компьютерного зрения, тогда как RNN – для обработки естественного языка. Вопрос выбора между эффективностью и точностью подчеркивает практические вызовы, с которыми сталкиваются при внедрении DNN в реальных условиях.

C. Сверточные Нейронные Сети (CNN)

Сверточные нейронные сети (CNN) представляют собой специализированный тип нейронных сетей прямого распространения, известных своей способностью автоматически извлекать признаки из данных с помощью сверточных структур. В отличие от традиционных методов, требующих ручного извлечения признаков, CNN черпают вдохновение в визуальном восприятии.

Проще говоря, сверточные ядра CNN действуют как рецепторы, реагирующие на различные признаки, а функции активации имитируют пороги электрических сигналов в нейронах для их передачи. Компоненты, такие как функции потерь и оптимизаторы, вводятся для обучения CNN желаемым результатам.

CNN обладают заметными преимуществами по сравнению с полностью связными сетями (FCN). Они используют локальные соединения, при которых нейроны связаны только с небольшим числом предыдущих нейронов, что снижает количество параметров и ускоряет сходимость.

Совместное использование весов между соединениями и понижающая выборка через слои подвыборки дополнительно уменьшают количество параметров и сохраняют ценную информацию, используя принципы локальной корреляции изображения. Эти характеристики делают CNN основным алгоритмом глубокого обучения. Создание модели CNN обычно включает следующие компоненты: свертку, необходимую для выделения признаков, что приводит к созданию карт признаков, для которых может потребоваться добавление отступов (padding) для регулирования размера и использования шага (stride) для контроля плотности свертки. Для противодействия переобучению, вызванному обилием признаков, используется подвыборка (например, max pooling или average pooling) для уменьшения избыточности.

Одна из самых простых архитектур сверточных нейронных сетей (CNN) — это модель «мелкой» CNN (shallow CNN), которая представляет собой сверточную нейронную сеть с ограниченным количеством слоев. Она может состоять всего из нескольких сверточных слоев, за которыми следуют слои подвыборки (пулинга) и полносвязные слои. В отличие от более глубоких CNN, имеющих десятки и даже сотни слоев, мелкие CNN обычно включают лишь небольшое количество слоев.

Мелкие CNN имеют более простую структуру с меньшим числом слоев для обработки и выделения признаков из входных данных. Хотя такие сети могут не извлекать высокоуровневые признаки, как это делают глубокие сети, они все же могут показывать приемлемую производительность в условиях ограниченных вычислительных ресурсов или, когда простое выделение признаков удовлетворяет требованиям задачи.

Учитывая, что цвет является признаком низкого уровня, мы применили неглубокую модель CNN для распознавания цвета транспортных средств, что показано на Рис. 2.

Сравнение систем видеонаблюдения и промышленных камер для распознавания характеристик транспортных средств

Рис. 2. Предлагаемая неглубокая модель CNN

D. EfficientNet

Масштабирование CNN – это широко используемый подход для повышения их точности в таких задачах, как классификация изображений [13]. Например, модели, такие как ResNet, могут быть улучшены от меньших версий (например, ResNet-18) до более крупных (например, ResNet-200) за счет увеличения числа слоев. Обычные методы масштабирования CNN предполагают увеличение глубины, ширины или разрешения изображения по отдельности (Рис. 3 (b — d)).

Традиционные подходы обычно были сосредоточены на масштабировании только одного параметра, а не всех трех одновременно. В отличие от этого, модели EfficientNet предлагают простой, но эффективный метод составного масштабирования и равномерно масштабируют глубину сети, ширину и разрешение с помощью фиксированных коэффициентов масштабирования (Рис. 3 (e)). Семейство EfficientNet включает серию CNN моделей, известных своей выдающейся производительностью при высокой вычислительной эффективности.

Сравнение систем видеонаблюдения и промышленных камер для распознавания характеристик транспортных средств

Рис. 3. Масштабирование модели: (a) Пример базовой сети; (b) Масштабирование ширины; (c) Масштабирование глубины; (d) Масштабирование разрешения; (e) Составное масштабирование

Эти модели разработаны для достижения высокой точности при меньшем количестве параметров по сравнению с другими архитектурами, что делает их более экономичными в плане ресурсов. Тем не менее основная сложность заключается в том, что оптимальные значения глубины, ширины и разрешения взаимозависимы и меняются в зависимости от ограничений.

III. Реализация

Как уже упоминалось, мы сравнили производительность двух типов цветных камер: камеры видеонаблюдения (CCTV) и промышленной камеры. Изображения получены с использованием протоколов «RTSP» и «USB3 Vision» соответственно. Характеристики обоих комплектов камер приведены в Таблице 1.

ТАБЛИЦА I. СПЕЦИФИКАЦИИ ПАКЕТОВ КАМЕР

Тип камерыСпецификация
Датчик изображенияMax. РазрешениеЗатворКадров в сек.Фокусное расстояние (вариофокальный объектив)
CCTV1/2.8″ CMOS1920 x 1080Rolling255 — 60 (mm)
Industrial1/1.2″ CMOS1920 x 1200Global4010 — 60 (mm)

Наша задача инспекции атрибутов транспортных средств разделена на две части: a) распознавание цвета и b) распознавание модели. Алгоритмы реализованы на платформе PyTorch и выполняются на процессоре с графическим ускорителем Nvidia GeForce RTX 3080.

A. Распознавание цвета

Для реализации распознавания цвета с нуля была обучена мелкая CNN модель (Рис. 2) с использованием реальных наборов данных. Характеристики структуры модели и процесса обучения представлены в Таблице 2.

ТАБЛИЦА II. ПОДРОБНОСТИ МОДЕЛЕЙ DNN

Модель и свойства обучения
Тренируемые параметрыРазмер входных данныхВыходные нейроныОптимизаторФункция потерьРазмер пакетаЭпохи
445k64×648Lion [14]Cross — Entropy650
19M224×22423LionCross — Entropy1620

Мы обучили и оценили модель отдельно для каждой камеры с использованием отдельных наборов данных, состоящих из изображений, полученных с каждой камеры. Изображения для обоих наборов данных были сняты одновременно, в практически идентичных условиях, как показано на Рис. 1. Каждый набор данных включает изображения транспортных средств с восемью различными цветами: белый, черный, синий, серый, зеленый, желтый, красный/коричневый и серебристый/бежевый.

Для каждого класса доступно примерно 50 изображений. Пропорция обучающих и тестовых данных для каждого класса составляет 90/10 процентов от общего числа изображений. Кроме того, изображения были изменены до размера 64×64 пикселей, что соответствует входному размеру модели.

На Рис. 4 представлены некоторые примеры из наборов данных.

B. Распознавание моделей

Предлагаемый метод распознавания моделей транспортных средств построен в соответствии с архитектурой EfficientNet-B4.

EfficientNet-B4 как одна из версий EfficientNet выделяется тем, что находит баланс между размером, точностью и вычислительной эффективностью. Подробности модели и процесса обучения показаны в Таблице 2. Процесс получения изображений и создания набора данных аналогичен распознаванию цветов; однако количество изображений и категорий отличается. Каждый набор данных содержит около 10 тыс. изображений 23 различных транспортных средств, состоящих как из иранских, так и из международных моделей. Данные обучения и тестирования для каждого класса распределяются в соотношении 80/20 процентов от общего количества наборов данных, а размеры изображений были изменены до размера 224×224. Некоторые образцы наборов данных приведены на Рис. 4.

Сравнение систем видеонаблюдения и промышленных камер для распознавания характеристик транспортных средств

Рис. 4. Образцы наборов данных CCTV (вверху) и промышленных камер (внизу)

IV. Результаты

В этом исследовании мы сравнили CCTV и промышленные камеры с точки зрения их производительности в распознавании атрибутов транспортных средств и качества полученных изображений. В данном разделе приводятся результаты метрико-ориентированной и субъективной оценки. Сравнение CCTV и промышленных камер по метрикам основано на таких показателях, как точность (Accuracy), точность положительных срабатываний (Precision), полнота (Recall) и F1-мера (F1-Score), которые рассчитываются следующим образом:

где TP, TN, FP и FN обозначают количество истинно положительных, истинно отрицательных, ложно положительных и ложно отрицательных классификаций соответственно.

Метрика Precision определяет точность в распознавании положительных экземпляров среди всех, спрогнозированных как положительные. Например, в задаче распознавания цвета высокая точность для «зелёного» означает, что количество автомобилей других цветов, ошибочно распознанных как «зелёные», невелико. Полнота (Recall), также известная как чувствительность, оценивает эффективность модели в правильной идентификации положительных экземпляров.

Для задачи распознавания цвета высокая полнота для «зелёного» означает, что почти все автомобили с пометкой «зелёный» предсказаны корректно. F1-мера выступает как объединённая метрика, которая комбинирует Precision и Recall, обеспечивая единое измерение точности.

На Рис. 5 показаны матрицы ошибок для CCTV и промышленных камер, полученные при распознавании цвета на тестовых данных. Согласно результатам, промышленная камера обладает большей точностью классификации по нескольким категориям, чем CCTV.

Сравнение систем видеонаблюдения и промышленных камер для распознавания характеристик транспортных средств

Рис. 5. Матрицы ошибок для распознавания цвета


Как видно из результатов на Рис. 6, хотя обе камеры достигают высоких показателей, промышленная камера превосходит CCTV по всем метрикам. Это свидетельствует о том, что промышленная камера демонстрирует лучшую способность распознавать цвета, обеспечивая большую точность и надёжность в дифференциации цветов автомобилей по сравнению с CCTV. Это можно объяснить высоким качеством сборки промышленных камер.

Сравнение систем видеонаблюдения и промышленных камер для распознавания характеристик транспортных средств

Рис. 6. Результаты распознавания цвета


С другой стороны, результаты распознавания моделей автомобилей по 23 категориям приведены на Рис. 7, включая матрицы ошибок для обеих камер и гистограмму на Рис. 8. В общем, результаты, представленные в матрицах ошибок, согласуются с гистограммами, что показывает, что обе камеры демонстрируют хорошие результаты с незначительными различиями по всем метрикам, однако промышленные камеры показывают более высокие значения.

Сравнение систем видеонаблюдения и промышленных камер для распознавания характеристик транспортных средств

Рис. 7. Матрицы ошибок для распознавания моделей
Сравнение систем видеонаблюдения и промышленных камер для распознавания характеристик транспортных средств

Рис. 8. Результаты распознавания моделей


Для оценки результатов с точки зрения человека мы представляем примеры изображений номерных знаков, снятых обоими типами камер, на рис. 9. Как показано, индустриальная камера обеспечивает значительно более четкие, яркие и узнаваемые изображения по сравнению с CCTV, что приводит к более эффективному извлечению информации.

Сравнение систем видеонаблюдения и промышленных камер для распознавания характеристик транспортных средств

Рис. 9. Пример изображений номерных знаков, снятых камерами CCTV и индустриальными камерами.

V. ЗАКЛЮЧЕНИЕ

В данном сравнительном исследовании, являющемся одной из первых попыток сопоставить CCTV и индустриальные камеры, мы изучили эффективность этих камер в распознавании атрибутов транспортных средств, сосредоточив внимание на распознавании цвета и модели с помощью методов глубокого обучения. Исследование выявило явные различия в качестве изображения между двумя типами камер: индустриальные камеры регулярно обеспечивают более четкие и узнаваемые изображения по сравнению с CCTV.

Используя специализированную неглубокую CNN и модель на основе EfficientNet-B4 для задач распознавания цвета и модели, индустриальная камера продемонстрировала превосходные показатели производительности, точности и надежности по сравнению с CCTV. Полученные результаты подчеркивают критическую важность качества изображения в таких приложениях автоматизированного мониторинга.

Однако, учитывая высокую цену индустриальных камер как ограничивающий фактор, в этих конкретных сценариях может не быть значительных различий в производительности между CCTV и индустриальными камерами, если используются мощные алгоритмы компьютерного зрения. В качестве дальнейшей работы мы предлагаем проводить такие сравнения в других приложениях видеонаблюдения.

СПИСОК ЛИТЕРАТУРЫ

[1] Q. Zhang, H. Sun, X. Wu, and H. Zhong, «Edge video analytics for public safety: A review», Proceedings of the IEEE , vol. 107, no. 8, pp. 1675- 1696, 2019.

[2] A. Dehghan, S. Z. Masood, G. Shu, and E. Ortiz, «View independent vehicle make, model and color recognition using convolutional neural network», arXiv preprint, arXiv:1702.01721, pp. 2017.

[3] H. Fu, H. Ma, G. Wang, X. Zhang, and Y. Zhang, «MCFF-CNN: Multiscale comprehensive feature fusion convolutional neural network for vehicle color recognition based on residual learning», Neurocomputing, vol. 395, pp. 178-187, 2020.

[4] S. Campisi, L. Colombini, A. Lovato, F. Odone, and N. Noceti, «Real time Vehicle Color Recognition on a budget: an investigation on the usage of CNN architectures», 18th IEEE International Conference on Advanced Video and Signal Based Surveillance (AVSS), IEEE, pp. 1-8, 2022.

[5] A. Amirkhani, and A. H. Barshooi, «DeepCar 5.0: vehicle make and model recognition under challenging conditions», IEEE Transactions on Intelligent Transportation Systems, vol. 24, no. 1, pp. 541-553, 2022.

[6] Z. Ma, et al., «Fine-grained vehicle classification with channel max pooling modified CNNs», IEEE Transactions on Vehicular Technology, vol. 68, no. 4, pp. 3224-3233, 2019.

[7] K. Stavrothanasopoulos, et al., «Vehicle Color Identification Framework using Pixel-level Color Estimation from Segmentation Masks of Car Parts», 5th International Conference on Image Processing Applications and Systems (IPAS), IEEE, pp. 1-7, 2022.

[8] H. Hussain, P. S. Tamizharasan, and C. S. Rahul, «Design possibilities and challenges of DNN models: a review on the perspective of end devices», Artificial Intelligence Review, vol. 55, pp. 5109-5167, 2022.

[9] Z. Li, F. Liu, W. Yang, S. Peng, and J. Zhou, «A survey of convolutional neural networks: analysis, applications, and prospects», IEEE transactions on neural networks and learning systems, 2021.

[10] S. Saxena, P. K. Shukla, and Y. Ukalkar, «A Shallow Convolutional Neural Network Model for Breast Cancer Histopathology Image Classification», In Proceedings of International Conference on Recent Trends in Computing: ICRTC 2022, Springer Nature Singapore, pp. 593- 602, Singapore, 2023.

[11] D. Li, S. Ge, K. Zhao, and X. Cheng, «A shallow neural network for recognition of strip steel surface defects based on attention mechanism», ISIJ International, vol. 63, no. 3, pp. 525-533, 2023.

[12] N. H. Pham, H. T. Nguyen, and T. T. Phan, «Shallow Convolutional Neural Network Configurations for Skin Disease Diagnosis», In International Conference on Intelligence of Things, Cham: Springer Nature Switzerland, pp. 370-381, 2023.

[13] M. Tan, and Q. Le, «Efficientnet: Rethinking model scaling for convolutional neural networks», In International conference on machine learning, pp. 6105-6114, PMLR, 2019.

[14] X. Chen, et al., «Symbolic discovery of optimization algorithms», arXiv preprint, arXiv:2302.06675, 2023.