Исследования по обнаружению и распознаванию объектов с использованием алгоритмов машинного обучения и глубокого обучения…

Юсеф Эльбаюми | 22 июля 2021 г.

Аннотация

В этой статье подробно рассматриваются приложения машинного обучения и глубокого обучения в автономных транспортных средствах, обнаружение изображений и обнаружение мошенничества с кредитными картами. Глубокое обучение — это один из возможных ответов на трудности с идентификацией объектов и восприятием сцены, позволяющий разрабатывать автоматы, управляемые алгоритмами и данными. Кроме того, использование обработки изображений для автоматической идентификации или распознавания фруктов является важной частью точного земледелия для обнаружения объектов на больших участках посевов. Кроме того, в данной статье рассматривается выявление финансового мошенничества в несбалансированных данных. Я буду оценивать и сравнивать различные подходы к проблеме обнаружения мошенничества с кредитными картами. Наконец, в документе будут рассмотрены некоторые подробности об индустрии 4.0, а также проведен опрос по обнаружению объектов.

Ключевые слова:

Обнаружение объектов, Машинное обучение, Индустрия 4.0, Самоуправляемые автомобили, Глубокое обучение, Инициативы автономного вождения, Ананасовая корона, Обработка изображений, Точное земледелие, Интернет мультимедийных вещей, Обработка событий, Обнаружение мошенничества, Процесс Пуассона, Несбалансированные данные.

Введение

Все предыдущие оценки (более ранние прогнозы) сокращаются из-за резкого увеличения количества физических устройств, подключенных к Интернету. Мы можем ожидать миллиарды подключенных объектов в наступающем году, когда следующие 10 миллиардов гаджетов Интернета вещей (IoT) появятся в сети, а предыдущая цифра «50 миллиардов устройств» к 2020 году будет только хорошо цитируемой [3]. Влияние этого увеличения также можно увидеть во всемирной сети в мультимедийном трафике: Netflix 14,97 %, YouTube 11,35 %, медиапоток HTTP 13,07 % и т. д., на которые приходится 57,69 % общего интернет-трафика [7]. Более того, машины, продукты и люди все больше связаны с помощью информационных технологий, и в этом секторе происходят изменения в сторону более автономного и интеллектуального производства. Этот процесс получил название Четвертая промышленная революция (Индустрия 4.0) [5].

Во время этой революции различные приложения искусственного интеллекта (ИИ), машинного обучения (МО) и глубокого обучения (ГО) приобрели известность и вышли на первый план в результате последних разработок в этих методах. Беспилотные автомобили — одно из таких приложений, которое, как ожидается, окажет глубокое и революционное влияние на общество и на то, как люди добираются до работы [8]. Несмотря на то, что принятие и одомашнивание технологий поначалу может быть затруднено, эти автомобили станут первой значительной интеграцией персональных роботов в человеческую цивилизацию [2].

Еще одно использование обнаружения объектов - обнаружение изображений. Точное земледелие в последнее время набирает обороты в результате реализации вычислительного анализа с использованием обработки изображений, чтобы помочь команде управления сельским хозяйством отслеживать, измерять и реагировать на изменчивость урожая для лучшего управления на уровне фермы. . Фермеры могут получить большую выгоду от обработки изображений в точном земледелии или сельскохозяйственных приложениях для различных культур с использованием автоматического обнаружения и подсчета урожая фруктов во время сезона сбора урожая [13].

Последнее, что я включил в это исследование, связано с банками, большинство банков теперь предлагают безопасные интернет-услуги своим клиентам. Система выявления и предотвращения мошеннических транзакций является одним из компонентов такой защиты. В этом исследовании для решения проблемы обнаружения мошенничества используются модель интенсивности процесса Пуассона и методы машинного обучения с учителем. Для этой темы используются различные неконтролируемые методы, среди которых выделяются ограниченная машина Больцмана (RBM) и генеративно-состязательные сети (GAN) [1].

2. Фон

Авторы используют физическую модель промышленного моделирования Fischer Technik (FT) для имитации производственной среды Индустрии 4.01. Learning Factory [22] — это подобные модели, которые используются для образования и исследований в области Индустрии 4.0 [26]. Это позволяет разрабатывать исследовательские прототипы и оценивать их пригодность для практического применения. Авторы считали, что модели физической симуляции ближе к реальному миру, чем исключительно виртуальные модели симуляции (например, основанные на цифровых двойниках [18], особенно с точки зрения разработки поведения во время выполнения и непредвиденных специальных взаимодействий (например, с участием людей), не изученных в настоящей работе). виртуальные модели [27].

2.1. Автономные транспортные средства

Концепция беспилотных автомобилей существует уже около 80 лет, когда компания General Motors (GM) Futurama [19] представила ее на Всемирной выставке 1939 года в Нью-Йорке. Появление точных и устойчивых датчиков, размеры и стоимость которых продолжают уменьшаться, наряду с искусственным интеллектом, стало краеугольным камнем систем автономного вождения [17]. Приложения человеко-машинного интерфейса, элементы управления с поддержкой сети, слияние данных с нескольких датчиков, трехмерный анализ сцены движения и программно-определяемая обработка сигналов — все это включено в эти беспилотные системы для транспортировки материалов, полезной нагрузки, товаров и людей [14]. . Самоуправляемые машины на основе ИИ должны иметь возможность правильно перемещаться в любой среде в любое время [10]. Точная локализация, ненавязчивый сбор данных, генерация объединенных наборов данных и непрерывная высокоуровневая связь с другими автомобилями и ближайшей интеллектуальной инфраструктурой имеют решающее значение для точности автономной навигации [20]. Технологию автономного вождения планируется применить к тягачам с прицепом, грузовым автомобилям, карьерным самосвалам и автобусам в долгосрочной перспективе [16].

Преимущества беспилотных транспортных средств:

Интеллектуальные транспортные системы (ИТС) используют достижения в области беспроводных сетей, программно-определяемых сетей и информационных и коммуникационных технологий (ИКТ) для уменьшения количества столкновений, уменьшения загрязнения, облегчения проблем с мобильностью, предоставления новых видов общественного транспорта и совместного использования ресурсов, материалов и пространство [4]. Согласно исследованиям, 1,3 миллиона человек ежегодно умирают в результате вождения в состоянии алкогольного опьянения, наркотического опьянения, рассеянного или усталого вождения. Эти жизни можно было бы спасти, если бы автономные системы искусственного интеллекта могли устранить некоторые человеческие глупости [15]. Следующие преимущества мотивируют текущие исследования беспилотных автомобилей:

· Пользователи могут извлечь выгоду из снижения стресса, более коротких поездок на работу и обратно, сокращения времени в пути, повышения производительности, оптимального расхода топлива и снижения выбросов углерода. Эти автомобили можно запрограммировать на осторожное вождение, избегание слепых зон и соблюдение правил скорости [6].

· Беспилотные автомобили помогут правительствам в обеспечении соблюдения правил дорожного движения, увеличат пропускную способность дорог, снизят количество смертельных случаев на дорогах и частоту дорожно-транспортных происшествий, связанных с вождением, а также улучшат соблюдение скоростного режима [11].

· Ожидается, что автомобили с автоматическим управлением устранят вождение в нетрезвом виде, отвлеченное вождение, текстовые сообщения и другие формы использования мобильных телефонов, а также уменьшат количество торможений, ускорений и пробок на дорогах [25]. Прогнозируется, что снижение числа несчастных случаев принесет пользу молодежи и пожилым людям, помогая людям чувствовать себя комфортно с беспилотными транспортными средствами [29].

2.2. Обнаружение изображения

Предварительная обработка, сегментация и классификация необходимы для обработки изображений, полученных беспилотным летательным аппаратом (БПЛА) на заданной высоте, чтобы улучшить представление изображения или распознавание объектов. Обработка изображений, основанная на автоматизированной идентификации болезней, мониторинге стресса сельскохозяйственных культур, прогнозировании урожайности и машинном подсчете [21], была проверена на предмет их полезности для максимизации урожайности сельскохозяйственных культур и управления продуктивностью. Быстрое развитие технологии компьютерной обработки, которая дает преимущества с точки зрения быстрого развертывания, низкой стоимости и точных результатов обработки на огромных полевых площадях, является причиной актуальности во многих аспектах сельскохозяйственного сектора.

Машинное обучение имеет большой потенциал для получения быстрых и надежных результатов, которые будут проверены с соответствующими характеристиками с использованием дисперсионного анализа (ANOVA) для повышения эффективности алгоритма. Для улучшения процесса обнаружения необходимы высококачественные фотографии с хорошо освещенным фоном и правильный подход к сегментации [13].

2.3. Обнаружение мошенничества с кредитными картами

Работа с сильно несбалансированной выборкой значительно усложняет обнаружение мошеннических транзакций, поскольку классификаторы неправильно обнаруживают несколько примеров обучающего класса меньшинства. Для преодоления этой проблемы будет разработано несколько методов [9]. Я буду использовать математические концепции и вариации в процессе Пуассона для построения модели, более подробную информацию о математической части и о том, как была построена модель, см. в статье [12].

Для решения этой задачи будет использоваться несколько алгоритмов машинного обучения, таких как LightGBM, XGBoost и CatBoost, также после предварительной обработки данных мы увидим много интересных чисел и результатов и, наконец, пройдемся по вычислительному процессу [12].

3. Методологии

3.1. Подходы к обнаружению объектов в беспилотных транспортных средствах: плюсы и минусы

Обнаружение объектов — это метод определения экземпляров класса, к которым принадлежит объект [28]. Самоуправляемые автомобили должны классифицировать различные элементы, присутствующие на изображении, а также конкретное расположение этих объектов, чтобы получить исчерпывающую трехмерную перспективу окружения [37]. Следующие три категории можно использовать для категоризации обнаружения объектов для семантического понимания сцены:

1. Предложение региона/выбор региона: в эпоху до DL наиболее распространенным методом выбора региона было сканирование всего изображения с использованием многомасштабного скользящего окна. Метод скользящего окна, с другой стороны, требует значительных вычислительных ресурсов для беспилотных автомобилей и не отвечает требованию исчерпывающего поиска всех положений элемента в режиме реального времени [24].

2. Извлечение признаков: для извлечения признаков обычно использовались такие методы, как преобразование Хаара, признаки, подобные Хаару, и гистограммы ориентированных градиентов (HoG). Эти подходы, с другой стороны, не обеспечивают устойчивости к изменению переменных окружающей среды в сценариях автономного вождения [44].

3. Категоризация: после того, как элементы были восприняты и обнаружены, классификация выполняется с использованием методов машинного обучения, таких как MLP и SVM. Модель деформируемых частей (DPM) была предложена для использования в условиях беспилотного вождения [23] и получила всеобщую поддержку для классификации объектов.

Гистограмма ориентированных градиентов (HoG) — это метод обнаружения признаков, который использовался для обнаружения пешеходов. Гистограмма ориентированных градиентов создает градиенты в различных масштабах для всего изображения и использует линейный классификатор для каждого масштаба в каждом пикселе. Чтобы избежать столкновений, модель HoG для беспилотных автомобилей в перегруженных районах с несколькими автомобилями требует почти идеальной точности. Для реальных обстоятельств, включая пешеходов и другие автомобили, модель оказалась слишком медленной [31]. Хотя несколько архитектур обнаружения объектов, в том числе R-CNN, быстрая R-CNN, более быстрая R-CNN, YOLO и SSD, достигли впечатляющей точности и низкого уровня ошибок (менее 5%) в наборах данных ImageNet и Pascal VOC, скорость этих разработка приложений для автономного вождения в режиме реального времени остается проблемой [35].

3.2. Подходы к обнаружению изображений

После процесса сегментации в этом разделе извлекаются и выбираются функции. Внешний вид фотографий короны ананаса представлен цветовыми признаками, а особенности формы и текстуры извлекаются с использованием геометрических характеристик. Затем с помощью анализа этих свойств корону плода выделяют из фонового шума. На основе образцов фотографий этого каркаса были разработаны и распознаны три основных вектора признаков: цветовые признаки, признаки формы и признаки текстуры [13].

1- Цветовые характеристики:цветовая гистограмма на кроне ананаса была рассчитана для трех матриц R, G и B, чтобы извлечь аспекты формы кроны ананаса из Процедура сегментации. Среднее значение R, среднее значение B и среднее значение G являются тремя ключевыми характеристиками, которые необходимо проанализировать. Из-за фонового шума было видно цветовое сходство коронок ананасов, что указывало на наличие незначительных различий [30].

2- Особенности формы:размер и форма каждой короны ананаса, а также фоновый шум измеряются с использованием характеристик формы. Площадь, центроид x, центроид y, длина большой оси, длина малой оси, ориентация, плотность, эксцентриситет и периметр — все это компоненты характеристики формы, подлежащие оценке [30].

3- Свойства текстуры:среднее значение LBP, стандартное отклонение LBP, контраст, корреляция, энергия, среднее значение GLCM, стандартное отклонение GLCM, энтропия, дисперсия, эксцесс, гладкость, однородность, корень средний квадрат и асимметрия входят в число характеристик LBP и GLCM, исследованных при извлечении текстуры [36].

Классификация объектов с помощью машинного обучения

В целом, классификация в информатике и смежных областях применяет вычислительную модель, вдохновленную центральной нервной системой, для обработки нелинейных проблем, соответствующих зашумленным или сложным данным [32], включая анализ изображений. Классификаторы машинного обучения изучают морфологические признаки и подсчитывают количество коронок фруктов в последовательных кадрах изображений, чтобы оценить количество коронок ананаса в ограничивающей рамке [34].

Чтобы классифицировать корону ананаса как неплодовую, требуется метод классификации машинного обучения, чтобы удалить подлинное положительное обнаружение. Предварительная обработка изображения на основе алгоритма не обнаруживает все ограничивающие рамки. В результате реализация алгоритма классификации улучшает способность системы правильно идентифицировать крону, что делает ее полезной в процессе подсчета плодов [13].

Супервекторная машина. SVM — это простой метод классификации данных, который создает модель, предсказывающую целевое значение данных в тестовом наборе. Модель построена с использованием данных обучения и тестирования, которые состоят из серии примеров данных с одним целевым значением и множеством функций [33].

Случайный лес: RF — один из наиболее эффективных методов классификации и регрессии для классификации больших наборов данных. С помощью этого алгоритма создается ансамбль деревьев решений. Ансамблевые подходы основаны на идее группировки слабых учеников вместе для создания сильного ученика [42].

Деревья решений. DT — это широко используемый метод непараметрического машинного обучения с учителем для классификации данных. Фундаментальной целью DT является разработка модели, которая предсказывает метку класса тестовой выборки, изучая некоторые правила из набора данных тестирования [39].

K-ближайшие соседи. Классификатор KNN — это хорошо известная методология в области машинного обучения. Классификатор KNN использует обучающие примеры, параметр расстояния и количество ближайших соседей для присвоения меток класса тестовым данным (k) [39].

3.3. Подходы к обнаружению мошенничества с кредитными картами

Ансамбли в машинном обучении — это набор алгоритмов, обученных решать одну и ту же задачу. В результате ансамбли превосходят каждый алгоритм в ансамбле по отдельности по эффективности прогнозирования. С помощью антиградиента последовательно создаются несколько моделей повышения градиента. Для исключения ошибок модели в процессе обучения подсказывают направление будущих корректировок в прогнозах текущей модели ансамбля [12].

LightGBM: это более продвинутая версия алгоритма повышения градиента. В методе обучения на основе дерева LGBM используется для улучшения градиента. Ключевое отличие этого алгоритма от других состоит в том, что дерево растет в глубину, а не по листьям. Также следует обратить внимание на название этого алгоритма. «Легкий» означает высокую скорость выполнения. LightGBM способен обрабатывать огромные объемы данных, требуя при этом минимального объема памяти. Еще одним преимуществом этого алгоритма является его концентрация на точности прогноза [38].

XGBoost: это метод машинного обучения на основе дерева решений. Это оптимизация системы и улучшение алгоритма, улучшающее структуру повышения градиента. XGBoost можно использовать, среди прочего, для решения проблем регрессии, классификации, упорядочения и пользовательского прогнозирования. XGBoost — это параллельный алгоритм бустинга деревьев, который быстро и точно решает множество задач по науке о данных [40].

CatBoost: Яндекс создал открытую программную библиотеку, которая использует один из первых подходов к увеличению градиента для реализации уникального запатентованного алгоритма создания моделей машинного обучения. Числовые характеристики можно использовать практически в любом современном подходе, основанном на градиенте. Если набор данных содержит как числовые, так и категориальные признаки, мы должны преобразовать категориальные признаки в числовые, что может привести к снижению точности модели. CatBoost — это библиотека улучшения градиента, преимущество которой заключается в возможности работать с двумя различными типами характеристик [41].

Предварительная обработка данных: с 15 ноября 2018 г. по 13 февраля 2019 г. было зарегистрировано 95 662 транзакции. Данные о транзакциях есть у 3 633 клиентов. Все кортежи этого набора имеют метку, указывающую, относятся ли они к классу 0 или 1. Существенный элемент набора данных — сильный дисбаланс данных: процент мошеннических транзакций составляет чуть менее 0,2 процента. Чтобы использовать основы процесса Пуассона для оценки вероятности принадлежности объекта к определенному классу, необходимы три атрибута: идентификатор клиента, время поступления транзакции и метка [12].

По результатам обработки данных приведены следующие статистические данные [12]:

- 94 850 транзакций.

- 2821 клиент.

- 183 мошеннических операции.

- 0,19% - процент мошеннических транзакций.

- 42 мошеннических клиента.

- 31 — максимальное количество мошенничества на одного клиента, 0 — минимальное.

Результат вычислительного процесса

4. Результаты и заключение

4.1. Автономные транспортные средства

Авторы обсудили продолжающиеся усилия исследователей по тестированию беспилотных автомобилей, подчеркнув необходимость глубокого обучения для идентификации объектов в реальном времени. DL может обрабатывать полученные данные в режиме реального времени и передавать их в соседние облака и другие транспортные средства в значимом районе благодаря графическому процессору и быстрым облачным вычислениям. Согласно исследованию, трансферное обучение также используется для повышения точности обнаружения объектов, чтобы улучшить такие показатели производительности, как точность, точность, отзыв и баллы F1 [35].

Согласно исследованию, глубокое обучение является основным катализатором для реализации обнаружения объектов и понимания сцены в беспилотных автомобилях, но еще есть много возможностей для улучшения. Когда и при каких ситуациях CNN перестают работать адекватно и становятся угрозой для жизни человека в сценариях автономного вождения, еще предстоит определить [43].

Для категоризации объектов использовалось объединение мультимодальных датчиков и анализ облака точек, чтобы улучшить ограниченную экспозицию беспилотных камер LiDAR. Согласно выводам исследования, беспилотные автомобили больше не являются вопросом «если», а скорее вопросом «когда и как». Скорость, с которой эти автономные роботы интегрируются в человеческую цивилизацию, определяется их способностью безопасно управлять автомобилем. Это требует использования надежных методов распознавания объектов, математических моделей и симуляций для имитации реальности и определения идеальных параметров и конфигураций, которые могут реагировать на изменения в окружающей среде [35].

Тем не менее, благодаря большим данным, глубокому обучению и CNN в нашем распоряжении есть технологии для решения проблем восприятия в беспилотных автомобилях с высокой степенью произвольной точности. Благодаря этим технологиям исследователи смогли разбить большие проблемы на более простые, а ранее нерешаемые задачи на выполнимые, но немного более дорогие, такие как сбор и аннотирование данных для получения достоверной информации [43].

4.2. Обнаружение изображения

Из-за окклюзии из-за фонового шума, а также цветового сходства между листьями и кронами анализ изображений для обнаружения кроны ананаса в открытом поле требует этапов методической обработки. Сравнение классификаторов показало, что ошибки FN и FP по-прежнему значительны при классификации ананаса и шума, что может быть связано со сходством признаков ананаса и шума, особенно цвета и формы листьев ананаса в этих случаях. Поскольку метод обработки изображения может уменьшить освещенность и различить окклюзии, которые необходимы для анализа изображения на данном этапе, возможность идентификации желаемой области интереса велика [13].

Подсчет плодов, необходимый для оценки урожайности на каждом участке плантации ананасов, требует точного определения кроны ананаса. Использование ANOVA для выбора признаков по цвету, текстуре и форме показало повышение точности классификации и получение превосходных результатов. Понятно, что не все извлеченные черты были достаточно важными, чтобы приступить к категоризации. Есть 22 функции, выбранные из 26 путем сопоставления важных отличий короны ананаса, и фоновый шум может быть уменьшен. Характеристики формы, цвета и текстуры были сведены к четырем основным характеристикам: эксцентриситету, однородности, среднеквадратичному и среднему G, что показало, что характеристики статистически не различаются как для ананаса, так и для шума [13].

Используя методологии машинного обучения, система с квадрокоптером DJI Phantom 3 Advanced и программным обеспечением MATLAB использовалась для автоматического распознавания культур, обнаружения и подсчета ананасов в режиме реального времени. В режиме реального времени рассчитывается плотность ананасов в выбранной области. Это исследование представляет собой метод обработки изображений и машинного обучения для точного обнаружения и подсчета коронок ананасов. В предлагаемом методе есть несколько этапов. Для начала улучшите качество изображения данных и используйте морфологические методы для обнаружения короны ананаса. Во-вторых, используйте данные о цвете, форме и текстуре в качестве входных данных для классификатора машинного обучения, чтобы различать корону ананаса и фоновый шум, такой как листья, трава и земля [51].

Наконец, плоды ананаса должны быть пронумерованы на основе их распознанной короны с помощью алгоритма автоматического подсчета для отображения урожая ананаса, при этом работоспособность системы подтверждается тестированием невидимых фотографий. Алгоритм машинного обучения ANN-GDX показал точность 94,4% как лучшую классификацию по сравнению с другими алгоритмами классификатора, что подтверждено тестированием невидимых изображений и способностью преодолевать проблему переменного освещения и окклюзии из-за фонового шума [54].

4.3. Обнаружение мошенничества с кредитными картами

Для решения задачи обнаружения мошенничества использовались два подхода: пуассоновский процесс и машинное обучение. В первом сценарии я рассмотрел различные функции интенсивности, которые можно использовать для прогнозирования мошеннических событий. В качестве методов машинного обучения использовались ускорители градиента LightGBM, XGBoost и CatBoost. Были и другие решения проблем дисбаланса данных, «ложноположительных ответов» и наличия «чистых» клиентов [12].

В ходе проекта обрабатывались и генерировались новые данные. Достаточно знать детерминированную функцию интенсивности, время поступления мошеннической транзакции и метку, чтобы оценить интенсивность процесса Пуассона. Все функции в новом наборе данных использовались в моделях повышения градиента [12].

Модели пуассоновских процессов в будущем будут строиться методом скользящего окна; также будут исследованы более сложные функции интенсивности для неоднородных процессов, таких как ряды Фурье. Ансамбли из вышеупомянутых ансамблей будут включены в исследование машинного обучения. Ожидается, что при объединении результатов разработки таких моделей с множественными способами выявления мошеннических транзакций недостатки одного алгоритма будут уравновешены достоинствами другого [46]. Стратегия применения процесса Пуассона к наборам финансовых данных в сочетании с машинным обучением может привести к наилучшему подходящему решению для обнаружения мошенничества.

5. Проблемы и будущие направления

5.1. Проблемы

Стандартизация идеи IoMT. Мы обнаружили, что существующие приложения на основе IoMT зависят от предметной области, что указывает на необходимость стандартизированной архитектуры IoMT. [48] и [52] стали пионерами в стандартизации архитектуры мультимедийного Интернета вещей, решая такие проблемы, как мультимодальные вычисления больших данных, а также масштабируемость и ремонтопригодность модели для эффективного обмена мультимедийной информацией [52]. Однако это новая проблема, которая потребует большего внимания со стороны различных сообществ IoT и мультимедиа, чтобы согласовать и удовлетворить все требования систем умного города на основе IoMT.

Мультимедийные подходы к IoT: мы обнаружили, что инфраструктуры IoT хорошо зарекомендовали себя, переполнены и хорошо оснащены адекватными протоколами связи и обработки, а также стратегиями оптимизации. Включение мультимедиа в IoT, с другой стороны, является самой большой проблемой, с которой мы сталкиваемся, из-за отсутствия внимания к этому пробелу в обеих дисциплинах в прошлом [45]. Мультимедийные приложения занимаются исключительно извлечением, обработкой и анализом мультимедийных данных, тогда как Интернет вещей занимается скалярными (структурированными) данными. Мы ожидаем, что недорогие модели IoT будут работать с мультимедиа, а мультимедийные устройства будут использовать меньше ресурсов. Критической, но необходимой проблемой для изучения является объединение обоих сильных регионов и развитие их с нуля.

Коммуникация стоит дорого: некоторые из существенных проблем данных на основе IoMT включают высокие требования к пропускной способности, чрезмерное потребление энергии и относительно большое количество разнородных мультимедийных данных. Несколько недавних моделей [47] также стремятся решить проблему большой пропускной способности, одновременно уменьшая сквозную задержку, подчеркивая их важность для мультимедийного трафика.

Из-за роста объема мультимедийных больших данных (таких как фильмы и фотографии со смартфонов) энергоэффективная обработка стала первоочередной задачей в мультимедийном IoT [49]. Из-за растущего числа мультимедийных приложений (таких как умные дома, транспорт, системы безопасности и производство) неоднородность [50] используется в IoT и также рассматривается как основная проблема будущего IoT.

5.2. Будущие направления

Промежуточное ПО, основанное на событиях, — это хорошо известные решения IoT, которые изолируют сложности системы/оборудования от разработчика приложения [53]. Промежуточное ПО с поддержкой мультимедиа. Существующие промежуточное ПО, основанное на событиях, имеет богатую литературу по структурированной обработке событий, и им удалось произвести революцию в коммуникационных архитектурах распределенных систем [63]. В результате мы можем с уверенностью прогнозировать успех промежуточного программного обеспечения на основе мультимедийных событий для мультимедийных IoT-решений.

Парадигма унифицированных коммуникаций. Для отправки и получения структурированных событий промежуточное ПО, основанное на событиях, до сих пор согласовывало одни и те же парадигмы связи (такие как публикация/подписка). Подписчики выражают свою заинтересованность в обнаружении любого события с помощью подписки и получают уведомление, когда это событие происходит [55] при общении через модели публикации/подписки. В недавнем исследовании выразительная сила для пользователей привлекла большое внимание в области обработки событий аппроксимации, что дало впечатляющие результаты в пересылке сообщений и удалении избыточности [56]. Кроме того, публикация/подписка на основе адаптивной фильтрации для распределенных мультимедийных систем показала значительное сокращение задержек и повышение эффективности использования ресурсов [57]. Другой дизайн микросервиса подтверждает снижение энергопотребления для обработки мультимедийных событий с использованием связи публикации/подписки. Мы считаем, что эти усовершенствования необходимы для единой архитектуры и успешной передачи мультимедийных событий [58].

Языки мультимедийных запросов. В дополнение к языкам запросов структурированных событий было предложено множество языков запросов видео для обработки событий на основе изображений, таких как VEQL, CVQL, SPARQL-MM, SVQL [59]. Большинство этих языков имеют возможность обнаруживать элементы мультимедиа, поддерживать свойства обнаружения, предвидеть пространственные/временные отношения и эффективно обрабатывать потоки. Я считаю, что добавление языков мультимедийных запросов в приложения реального времени для представления и спецификации мультимедийных событий может быть чрезвычайно полезным для умных городов [60]. Кроме того, высокая пропускная способность архитектур на основе языка запросов может оказать существенное влияние на мультимедийные системы Интернета вещей.

Модели, основанные на глубоких нейронных сетях (DNN). Глубокое обучение добилось значительных успехов в области распознавания изображений, проложив путь для приложений для наблюдения за умным городом [61]. Включение подходов на основе глубоких сверточных сетей для анализа мультимедийных событий может стать потенциальным ответом на стандартизацию методологии IoMT. В работе [64] реализован общий метод для данных IoMT и показана способность глубоких нейронных сетей обрабатывать потоки мультимедийных событий из многочисленных приложений. Способность DNN обеспечивать высокую производительность и непрерывное обучение может помочь удовлетворить требования мультимедиа в IoT [62]. Методы на основе DNN могут включать классификатор любого типа для облегчения многих типов приложений в умных городах, независимо от того, обеспечивают ли они высокопроизводительные возможности идентификации изображений.

6. Благодарность

Это исследование проводится Data Glacier, и я хотел бы поблагодарить мой университет, Университет Бахчешехир, за их замечательных преподавателей, которые помогли мне достичь того уровня, когда я могу писать статьи.

Я использовал много ссылок, но было 5 основных ссылок, которые мне очень помогли, и я в основном построил эту статью по ним, я хотел бы поблагодарить авторов за их большую работу и исследование, это статьи: [12], [ 13], [35], [65] и [66].

Декларация о конкурирующих интересах

Я заявляю, что у меня нет известных конкурирующих финансовых интересов или личных связей, которые могли бы повлиять на исследование, представленное в этой статье.

Ссылки

[1] Ню, X., Ван, Л. и Ян X. (2019). Сравнительное исследование обнаружения мошенничества с кредитными картами: контролируемое и неконтролируемое. [онлайн] arXiv: 1904.10604 [cs.LG]. Доступно по адресу: https://arxiv.org/abs/1904.10604.

[2] Келлетт Дж., Баррето Р., Хенгель А., Вогиацис Н. Как автономные транспортные средства могут повлиять на город? случай поездки в центральную аделаиду. Городской Пол Рес 2019; 37:442–57.

[3] Эми Нордрам, Интернет меньшего количества вещей [новости], IEEE Spectr. 53 (10) (2016) 12–13.

[4] Дивакарла К., Эмади А., Разави С., Хабиби С., Ян Ф. Обзор технологии автономных транспортных средств. Int J Electr Hybrid Veh (IJEHV) 2019; 11: 320–45.

[5] Ласи Х. и др., 2014 г. Промышленность 4.0. БИСЭ 6, 239–242.

[6] Кейси А., Ниблетт А. Контракты на беспилотное вождение. Закон J Corp. 2017; 43:1–33.

[7] Лин Кантор, Кэм Каллен, Отчет о глобальных интернет-феноменах, октябрь 2018 г., Технический отчет. (2020).

[8] Пакуш С., Стивенс Г., Боден А., Боссауэр П. Непреднамеренные последствия автономного вождения: исследование предпочтений в отношении мобильности в будущем. Устойчивое развитие 2018;10: 2404.

[9] Ведж Р., Кантер Дж. М. и Верамачанени К. (2017). Решение проблемы ложных срабатываний при прогнозировании мошенничества. [онлайн] arXiv: 1710.07709 [cs.AI]. Доступно по адресу: https://arxiv.org/abs/1710.07709.

[10] Брелл Т., П. Р., Мартина З. Подозрительные умы? - восприятие пользователями автономного и подключенного вождения. Выпуски теории Ergon Sci 2019;20:301.

[11] Чжан Б., Уилшут Э., Виллемсен Д., Мартенс М. Переход к ручному управлению от высокоавтоматизированного вождения в некритических сценариях взвода грузовиков. Transport Res Часть F: Психология и поведение 2019; 64: 84–97.

[12] Анастасия И., Адель В., Сравнение подхода Пуассона и алгоритмов машинного обучения для обнаружения мошенничества с кредитными картами, Procedia Computer Science 186 (2021) 721–726.

[13] Ван Нуразвин С. Р., Мухаммед А. Х., Мегат С. А. М. А., Нур Д. К. А., Автоматическая идентификация изображений, обнаружение и подсчет плодов кроны ананаса с видом сверху с использованием машинного обучения, Alexandria Engineering Journal (2021).

[14] Чо Э., Юнг Ю. Понимание потребителями автономного вождения. Inf Technol People 2018;31:1035.

[15] де Винтер Дж., Хаппи Р., Мартенс М., Стэнтон Н. Влияние адаптивного круиз-контроля и высокоавтоматизированного вождения на рабочую нагрузку и осведомленность о ситуации: обзор эмпирических данных. Transport Res Part F: Psychology and Behavior 2014; 27: 196–217.

[16] Йоханнессон Л., Мурговски Н., Йонассон Э., Хеллгрен Дж., Эгардт Б. Прогностическое управление энергопотреблением гибридных магистральных грузовиков. Contr Eng Pract 2015; 41: 83–97.

[17] Сантос В., А. Д. С., Мигель О. Специальный выпуск по системам автономного вождения и помощи водителю. Robot Autonom Syst 2017; 91: 208–9.

[18] Бошерт, С., Розен, Р., 2016. Цифровой двойник — аспект моделирования, в: Мехатрон. Будущее.. Спрингер, стр. 59–74.

[19] Уоссон Х. Другой маленький экран: движущиеся изображения на всемирной выставке в Нью-Йорке, 1939 г. Can J Film Stud 2012; 21:81–103.

[20] Лаэс Э., Гориссен Л., Невенс Ф. Сравнение управления энергетическим переходом в Германии, Нидерландах и Соединенном Королевстве. Устойчивое развитие 2014; 6: 1129–52.

[21] С. Гутьеррес, Х. Тардагила, Х. Фернандес-Новалес, М.П. Диаго, Гиперспектральная визуализация на ходу для полевой оценки содержания растворимых твердых веществ в ягодах винограда и концентрации антоцианов, Aust. Дж. Грейп Вайн Рез. 25 (1) (2019) 127–133, https://doi.org/ 10.1111/ajgw.12376.

[22] Абеле, Э., и др., 2017. Учебные фабрики для ориентированных на будущее исследований и образования в области производства. ЦИРП Энн. 66, 803–826.

[23] Witoonchart P, Chongstitvatana P. Применение структурированного обратного распространения машины опорных векторов к сверточной нейронной сети для оценки позы человека. Нейронная сеть 2017; 92:39–46.

[24] Ли Х. Сеть с увеличением и уменьшением масштаба с решением о внимании к карте для предложения региона и обнаружения объектов. Int J Comput Vis 2018: 1–14.

[25] Лоу Т., Марккула Г., Бур Э., Мэдиган Р., Карстен О., Мерат Н. Возвращаясь к циклу: перцептивно-моторные характеристики водителей в критических ситуациях после автоматизированного вождения. Accid Anal Prev 2017; 108: 9–18.

[26] Кляйн П., Мальбург Л., Бергманн Р., 2019. FTOnto: онтология предметной области для производственной фабрики моделирования Fischertechnik путем повторного использования существующих онтологий, в: Proc. конф. LWDA, CEUR-WS.org. стр. 253–264.

[27] Брой, М., Сенгарле, М.В., Гайсбергер, Э., 2012. Киберфизические системы: неизбежные вызовы, в: Крупномасштабные сложные ИТ-системы. Дев., Опер. и Манаг. - 17-й Монтерейский семинар, Спрингер. стр. 1–28.

[28] X. Чен, Монокулярное 3D-обнаружение объектов для автономного вождения, DOI: 10.1109/CVPR.2016.236.

[29] Гиш Дж., Гренье А., Врклян Б., Ван Милтенбург Б. Пожилые люди за рулем высокотехнологичного автомобиля: новый режим вождения и новые отношения с вождением. Can J Commun 2017; 42: 235.

[30] Б.С. Видья, Э. Чандра, Локальный бинарный шаблон (ELBP), основанный на энтропии, представляет собой метод извлечения мультимодальных биометрических данных в качестве защитного механизма для облачного хранилища, Alexandria Eng. J. 58 (1) (2019) 103–114, https://doi.org/10.1016/j.aej.2018.12.008.

[31] Ватанабэ Т., Ито С., Ёкои К. Дескриптор признаков изображения с использованием гистограмм совпадения ориентированных градиентов для обнаружения человека. J Inst Image Inf Televis Eng 2017; 71: J28–34.

[32] Х.А. Бабикир, Элазиз М. Абд, А.Х. Эльшейх, Э.А. Showaib, M. Elhadary, D. Wu, Y. Liu, Прогнозирование шума аксиально-поршневого насоса на основе различных материалов клапана с использованием модифицированной модели искусственной нейронной сети, Alexandria Eng. J. 58 (3) (2019) 1077–1087, https://doi.org/10.1016/j.aej.2019.09.010.

[33] Р. Альзуби, А. Анушья, Э. Хамед, Э.А. Аль-Шаар, Б.А. Винси, Классификация плодов фиников с использованием SVM, в: AIP Conf. Proc., ООО «АИП Паблишинг», 1952(1), 2018, стр. 20078.

[34] П. Рой, А. Кислей, П.А. Плонски, Дж. Луби, В. Ислер, Картирование урожайности яблоневых садов до сбора урожая на основе Vision, Comput. Электрон. Агр. 164 (2019), https://doi.org/10.1016/j.compag.2019.104897 104897.

[35] Абхишек Г., Алаган А., Линг Г., Ахмед С. К., Глубокое обучение для обнаружения объектов и восприятия сцены в беспилотных автомобилях: обзор, проблемы и открытые вопросы, Массив 10 (2021) 100057.

[36] Р. Б. Валлабханени, В. Раджеш, Обнаружение опухоли головного мозга с использованием кластеризации среднего сдвига и функций GLCM с методом шумоподавления с адаптивной краевой общей вариацией, Alexandria Eng. J. 57 (4) (2018) 2387–2392, https://doi.org/10.1016/j.aej.2017.09.011.

[37] Хане С. Трехмерное визуальное восприятие беспилотных автомобилей с использованием многокамерной системы: калибровка, картографирование, локализация и обнаружение препятствий. Image Vis Comput 2017; 68:14–27.

[38] LightGBM (2020). Документация LightGBM. [онлайн] LightGBM. Доступно по адресу: https://lightgbm.readthedocs.io/en/latest/.

[39] А. Аль-Зебари, А. Сенгур, Сравнение производительности методов машинного обучения при обнаружении диабета, в: 2019 1st Int. Программное обеспечение информатики. англ. конф., IEEE, 2019, стр. 1–4.

[40] XGBoost (2020). Документация XGBoost. [онлайн] XGBoost. Доступно по адресу: https://xgboost.readthedocs.io/en/latest/.

[41] CatBoost (2020). Документация CatBoost. [онлайн] CatBoost. Доступно по адресу: https://catboost.ai/.

[42] Э. Эльхарири, Н. Эль-Бендари, А.Э. Хассаниен, А. Бадр, А.М. Хусейн, В. Снасел, Классификация случайных лесов по стадиям спелости сельскохозяйственных культур, в: Proc. Пятый междунар. конф. иннов. Био-вдохновленные вычисления. заявл. IBICA 2014, Springer, 2014, стр. 205–215.

[43] Дайри А., Харроу Ф., Сенуси М., Сан Ю. Технология — кибернетика; описаны новые результаты кибернетики, полученные в университете Седжон (эффективное глубокое обнаружение пожара на основе cnn и локализация в приложениях видеонаблюдения). Дж Технол 2019:1207.

[44] Wang X. Regionlets для обнаружения общих объектов. IEEE Trans Pattern Anal Mach Intell 2015; 37: 2071–84.

[45] Шираз А. Алви, Билал Афзал, Галиб А. Шах, Луиджи Атзори, Вакар Махмуд, Интернет мультимедийных вещей: видение и проблемы, Ad Hoc Netw. 33 (2015) 87–111.

[46] Зоджаджи З., Атани Р.Е. и Монаджеми, А. Х. (2016). Обзор методов обнаружения мошенничества с кредитными картами: перспектива, ориентированная на данные и методы. [онлайн] arXiv: 1611.06439 [cs.CR]. Доступно по адресу: https://arxiv.org/abs/1611.06439.

[47] Аюб Бахнассе, Фатима Эззараа Лухаб, Хафса Айт Улахайан, Мохамед Талеа, Ассия Бакали, Архитектура Novel sdn для интеллектуального управления трафиком mpls и управления осведомленностью о разнесенных серверах, Future Generation Computer Systems, 87, 2018, стр. 115–126.

[48] Kah Phooi Seng, Li-Minn Ang, Многоуровневая архитектура больших данных и функциональные блоки для мультимедийного Интернета вещей (miot), IEEE Trans. Многомасштабные вычисления. Сист. 4 (4) (2018) 500–512.

[49] Хай Трин, Прасад Калям, Дмитрий Чемоданов, Шизенг Яо, Цин Лей, Фан Гао, Каннаппан Паланиаппан, Мобильные граничные вычисления с учетом энергии и маршрутизация для обработки визуальных данных с малой задержкой, IEEE Trans. Мультимедиа 20 (10 (2018) 2562–2577.

[50] Ти Цю, Нин Чен, Кэцю Ли, Мохаммед Атикуззаман, Венбин Чжао, Как гетерогенный интернет вещей может построить наше будущее: опрос, IEEE Commun. Surv. Учебники 20 (3) (2018) 2011–2027.

[51] Э. Мирити, Классификация выбранных сортов яблок с использованием Наивного Байеса, 2016 г.

[52] Sufyan Almajali, I. Dhiah el Diehn, Haythem Bany Salameh, Moussa Ayyash, Hany Elgala, Распределенная многоуровневая архитектура mec-cloud для обработки крупномасштабных мультимедийных приложений на основе IoT, Multimed. Инструменты Прил. (2018) 1 22.

[53] Эдвард Карри, Программное обеспечение промежуточного слоя, ориентированное на сообщения, Община промежуточного программного обеспечения. (2004) 1–28.

[54] Р. Альзуби, А. Анушья, Э. Хамед, Э.А. Аль-Шаар, Б.А. Винси, Классификация плодов фиников с использованием SVM, в: AIP Conf. Proc., ООО «АИП Паблишинг», 1952(1), 2018, стр. 20078.

[55] Патрик Т. Югстер, Паскаль А. Фелбер, Рашид Геррауи, Энн Мари Кермаррек, Многоликость публикации/подписки, ACM Comput. Surv. (ЦСУР) 35 (2 (2003) 114–131.

[56] Ники Павлопулу, Эдвард Карри, На пути к основанному на окне механизму обобщения разнообразных сущностей в системах публикации/подписки, Труды EYRE 19: 2-й международный семинар по поиску сущностей, ACM, 2019.

[57] Тарек Заарур, Ники Павлопулу, Сулейман Хасан, Умайр Ул Хассан, Эдвард Карри, Автоматическое обнаружение аномалий в скользящих окнах: большая проблема, Материалы 11-й Международной конференции ACM по распределенным системам и системам, основанным на событиях, 2017 г., стр. 310–314.

[58] Фелипе Арруда Понтес, Эдвард Карри, Облачная микросервисная архитектура для распределенной обработки мультимедийных событий на основе dnn, EdgeWays 2020, Принято для Springer’s Communications in Computer and Information Science (CCIS), 2020.

[59] Тони К.Т. Куо, Арби Л.П. Чен, Обработка запросов на основе содержимого для видеобаз данных, IEEE Trans. Мультимедиа 2 (1) (2000) 1–13.

[60] Пиюш Ядав, Дипто Саркар, Дхавал Салвала, Эдвард Карри, Структура прогнозирования трафика для openstreetmap с использованием сложной обработки событий на основе глубокого обучения и открытых дорожных камер, Препринт arXiv (2020) arXiv: 2008.00928.

[61] MinWu, Марта Квятковска, Гарантии надежности глубоких нейронных сетей на видео, Труды конференции IEEE/CVF по компьютерному зрению и распознаванию образов 2020, стр. 311–320.

[62] Хао Ли, Хун Чжан, Сяоцзюань Ци, Жуйган Ян, Хуан Гао, Усовершенствованные методы обучения адаптивных глубоких сетей, Материалы Международной конференции IEEE по компьютерному зрению 2019 г., стр. 1891–1900.

[63] Рене Мейер, Винни Кэхилл, Таксономия распределенных систем программирования на основе событий, Comput. J. 48 (5) (2005) 602–626.

[64] Асра Аслам, Эдвард Карри, На пути к обобщенному подходу к обработке событий на основе глубоких нейронных сетей для Интернета мультимедийных вещей, IEEE Access 6 (2018) 25573–25587.

[65] Лукас М., Манфред-Питер Р., Ронни С., Патрик К., Ральф Б., Обнаружение объектов для интеллектуальных фабричных процессов с помощью машинного обучения, Procedia Computer Science 184 (2021) 581–588.

[66] Асра А., Эдвард С., Обзор обнаружения объектов для Интернета мультимедийных вещей (IoMT) с использованием промежуточного программного обеспечения для глубокого обучения и событий: подходы, проблемы и будущие направления, вычисления изображений и изображений 106 (2021) 104095.

Исследования по обнаружению и распознаванию объектов с использованием алгоритмов машинного обучения и глубокого обучения…

Вопросы по теме