Машинное обучение

  1. Детерминанты цен на жилье и сегментация рынка в Боулдере, штат Колорадо: гедонический ценовой подход (arXiv) (регрессия)

Автор: Махди Яздани

Аннотация: В этом исследовании мы используем модель гедонической регрессии для изучения детерминант цен на жилую недвижимость в городе Боулдер в штате Колорадо, США. Рынки городского жилья слишком сложны, чтобы их можно было рассматривать как однородные. Неоднородность рынка городской недвижимости требует создания сегментации рынка. Чтобы проверить, анализируется ли и прогнозируется ли жилая недвижимость на рынке недвижимости в городе Боулдер, на дезагрегированном уровне или на агрегированном уровне, мы стратифицируем рынок жилья на основе как типов собственности, так и местоположения и оцениваем отдельные гедонистические модели цен для каждого субрынка. Результаты показывают, что неявные значения характеристик собственности не идентичны для разных типов собственности и местоположений в городе Боулдер, и существует сегментация рынка.

2. Кредитный скоринг с использованием нейронных сетей и калибровки апостериорной вероятности SURE (arXiv) (логистическая регрессия)

Автор: Матье Гарсин, Самуэль Стефан

Аннотация. В этой статье мы сравниваем эффективность логистической регрессии и нейронной сети с прямой связью для целей кредитного скоринга. Наши результаты показывают, что логистическая регрессия дает неплохие результаты для набора данных, а нейронная сеть может немного улучшить производительность. Мы также рассматриваем различные наборы функций, чтобы оценить их важность с точки зрения точности прогнозов. Мы обнаружили, что временные особенности (то есть повторяющиеся измерения с течением времени) могут быть важным источником информации, приводящим к повышению общей точности модели. Наконец, мы представляем новый метод калибровки прогнозируемых вероятностей, основанный на несмещенной оценке риска Стейна (SURE). Этот метод калибровки может применяться к очень общим функциям калибровки. В частности, мы подробно описываем этот метод для сигмовидной функции, а также для функции Кумарасвами, которая включает идентичность как частный случай. Мы показываем, что объединение метода калибровки SURE с классическим методом Платта может улучшить калибровку предсказанных вероятностей.

3. Подход машинного обучения для классификации кинематики и режимов вихревого следа колеблющихся фольг (arXiv) (кластеризация)

Автор: Бернардо Луис Р. Рибейро, Дженнифер А. Франк

Аннотация: методы машинного обучения привлекли внимание в гидродинамике с точки зрения прогнозирования, кластеризации и классификации сложной физики потока. Одним из приложений была классификация или кластеризация различных структур спутного следа, которые исходят от обрывистых тел, таких как цилиндры или хлопающие крылья, создавая богатое разнообразие вихревых образований, специфичных для условий потока, геометрии и / или кинематики тела. При использовании колеблющихся крыльев для сбора энергии из приливных или речных потоков очень важно понимать сложную и нелинейную взаимосвязь между кинематикой взмахов и структурой вихревого следа ниже по потоку для оптимального размещения и работы массивов. В этой статье разрабатывается классификационная модель для получения групп кинематики, которые содержат похожие модели следа в режиме сбора энергии. Данные получены путем моделирования 27 уникальных кинематических параметров колеблющейся фольги для 13 650 образцов поля завихренности в следе. В этих образцах три группы визуально помечены в зависимости от относительного угла атаки. Подход машинного обучения, сочетающий сверточную нейронную сеть (CNN) с модулями долгосрочной краткосрочной памяти (LSTM), используется для автоматической классификации пробуждений на три группы. Средняя точность пяти подмножеств тестовых данных составляет 80%, когда для классификации используются три визуально помеченные группы. После анализа тестового подмножества с наименьшей точностью предлагается обновить границы разделения групп. Благодаря этому обновлению алгоритм достигает средней точности 90%, демонстрируя, что три группы способны различать отдельные структуры следа в диапазоне кинематики сбора энергии.

4. Схема голосования с лесом решений для классификации редких классов в обнаружении сетевых вторжений (arXiv) (деревья решений)

Автор: Ян Брабец, Лукас Мачлица

Аннотация: В этой статье исследуется байесовская агрегация деревьев решений в ансамбле (лесу решений). Основное внимание уделяется классификации на несколько классов, при этом количество выборок значительно смещено в сторону одного из классов. Алгоритм использует нестандартные наборы данных для оценки ошибок прогнозирования отдельных деревьев, которые затем используются в соответствии с правилом Байеса для уточнения решения ансамбля. Алгоритм учитывает преобладание отдельных классов и не требует установки каких-либо дополнительных параметров, связанных с весами классов или пороговыми значениями оценок решений. Оценка основана на общедоступных наборах данных, а также на собственном наборе данных, включающем телеметрию сетевого трафика из сотен корпоративных сетей с более чем миллионом пользователей в целом. Цель состоит в том, чтобы расширить возможности обнаружения действующей системы обнаружения вредоносных программ. Хотя нам удалось сохранить точность системы выше 94%, то есть только 6 из 100 обнаружений, показанных сетевому администратору, являются ложными срабатываниями, мы смогли добиться увеличения количества обнаружений примерно на 7%. Алгоритм эффективно обрабатывает большие объемы данных и может использоваться в сочетании с большинством современных алгоритмов, используемых для обучения лесов решений.

5. Классификатор отходов на основе искусственного интеллекта с функцией Thermo-Rapid Composting (arXiv) (машины Support Vector)

Автор: Saswati kumari behera, Aouthithiye Barathwaj SR Y, Vasundhara L, Saisudha G, Haariharan N C

Резюме: Управление отходами - безусловно, очень сложный и трудный процесс, особенно в очень больших городах. Он требует огромных человеческих ресурсов, а также потребляет другие ресурсы, такие как электричество и топливо. Это создает необходимость использовать новый метод с помощью новейших технологий. В этой статье мы представляем новую технику классификации отходов с использованием компьютерного зрения (CV) и глубокого обучения (DL). Для дальнейшего улучшения возможностей классификации отходов используются опорные машинные векторы (SVM). Мы также разлагаем разлагаемые отходы с помощью быстрого компостирования. В этой статье мы в основном работали над сортировкой твердых бытовых отходов (ТБО). Для этой модели мы используем YOLOv3 (You Only Look Once) - алгоритм на основе компьютерного зрения, широко используемый для обнаружения объектов, разработанный на основе сверточных нейронных сетей (CNN), которые являются инструментом на основе машинного обучения (ML). Они широко используются для извлечения функций из данных, особенно данных, ориентированных на изображения. В этой статье мы предлагаем метод классификации отходов, который будет более быстрым и эффективным. И мы разлагаем биоразлагаемые отходы методом компостирования Беркли (BKC).

Глубокое обучение

  1. DermGAN: синтетическое создание клинических изображений кожи с патологией (arXiv) (генеративные состязательные сети)

Автор: Амирата Горбани, Вивек Натараджан, Давид Коз, Юань Лю

Аннотация: Несмотря на недавний успех в применении контролируемого глубокого обучения к задачам медицинской визуализации, проблема получения больших и разнообразных аннотированных экспертными наборами данных, необходимых для разработки высокопроизводительных моделей, остается особенно сложной. В этой работе мы исследуем возможность использования Generative Adverserial Networks (GAN) для синтеза клинических изображений с состоянием кожи. Мы предлагаем DermGAN, адаптацию популярной архитектуры Pix2Pix, для создания синтетических изображений для предварительно заданного состояния кожи, при этом имея возможность изменять его размер, расположение и основной цвет кожи. Мы демонстрируем, что сгенерированные изображения имеют высокую точность, используя объективные показатели оценки GAN. В тесте Тьюринга на людях мы отмечаем, что синтетические изображения не только визуально похожи на реальные изображения, но также отражают соответствующее состояние кожи в глазах дерматологов. Наконец, при использовании синтетических изображений в качестве метода увеличения данных для обучения классификатора состояния кожи мы наблюдаем, что модель в целом работает сопоставимо с базовой моделью, улучшая при этом редкие, но злокачественные состояния.

2. DarkGAN: использование дистилляции знаний для понятного синтеза звука с помощью GAN (arXiv) (генеративные состязательные сети)

Автор: Хавьер Нисталь, Стефан Латтнер, Гаэль Рихард

Аннотация: Генеративные состязательные сети (GAN) за последние годы достигли превосходного качества синтеза звука. Однако обеспечение их работы с семантически значимыми элементами управления остается открытой проблемой. Очевидный подход - управлять GAN, привязывая его к метаданным, содержащимся в наборах аудиоданных. К сожалению, в наборах аудиоданных часто отсутствуют нужные аннотации, особенно в музыкальной сфере. Один из способов обойти это отсутствие аннотаций - создать их, например, с помощью автоматической системы аудиотегирования. Выходные вероятности таких систем (так называемые «мягкие метки») несут обширную информацию о характеристиках соответствующих аудио и могут использоваться для извлечения знаний из модели учителя в модель ученика. В этой работе мы производим извлечение знаний из большой системы тегов аудио в состязательный синтезатор звука, который мы называем DarkGAN. Результаты показывают, что DarkGAN может синтезировать музыкальный звук с приемлемым качеством и демонстрирует умеренный контроль атрибутов даже при отключенном входном кондиционировании. Мы публикуем код и предоставляем аудио-примеры на сопутствующем веб-сайте.

3. Rotaflip: новый слой CNN для регуляризации и инвариантности вращения в медицинских изображениях (arXiv) (сверточные нейронные сети)

Автор: Хуан П. Вигерас-Гильен, Джоан Ласенби, Франк Силигер

Аннотация: Регуляризация в сверточных нейронных сетях (CNN) обычно решается с помощью отбрасываемых слоев. Однако отсев иногда вреден для сверточной части CNN, поскольку он просто обнуляет процент пикселей в картах функций, добавляя нерепрезентативные примеры во время обучения. Здесь мы предлагаем слой CNN, который выполняет регуляризацию, применяя случайное вращение отражений к небольшому проценту карт функций после каждого сверточного слоя. Мы доказываем, как эта концепция полезна для изображений с ориентационной симметрией, таких как медицинские изображения, поскольку она обеспечивает определенную степень инвариантности вращения. Мы протестировали этот метод на двух наборах данных: на наборе патчей гистопатологических изображений (PatchCamelyon) для классификации с использованием общей сети DenseNet и на наборе зеркальных микроскопических изображений эндотелия роговицы для выполнения сегментации с использованием специализированной U-образной сети, улучшающей качество изображения. производительность в обоих случаях.

4. Интеграция глубокого обучения и дополненной реальности для повышения ситуационной осведомленности в средах пожаротушения (arXiv) (сверточные нейронные сети)

Автор: Маниш Бхаттарай

Аннотация: мы впервые в литературе представляем новый четырехкомпонентный подход к повышению ситуационной осведомленности пожарного. Мы создаем серию фреймворков глубокого обучения, построенных друг на друге, чтобы повысить безопасность, эффективность и успешное завершение спасательных операций, проводимых пожарными в условиях аварийного первого реагирования. Во-первых, мы использовали систему глубокой сверточной нейронной сети (CNN) для классификации и идентификации интересующих объектов по тепловым изображениям в реальном времени. Затем мы расширили эту структуру CNN для обнаружения, отслеживания, сегментации объектов с помощью структуры Mask RCNN и описания сцены с помощью структуры мультимодальной обработки естественного языка (NLP). В-третьих, мы создали агент на основе глубокого Q-обучения, невосприимчивый к дезориентации и тревоге, вызванным стрессом, способный принимать четкие навигационные решения на основе наблюдаемых и сохраненных фактов в условиях боевой стрельбы. Наконец, мы использовали технику неконтролируемого обучения с низким уровнем вычислительной мощности, называемую тензорной декомпозицией, чтобы выполнить значимое извлечение признаков для обнаружения аномалий в режиме реального времени. С помощью этих специальных структур глубокого обучения мы создали основу системы искусственного интеллекта для ситуационной осведомленности пожарных. Чтобы использовать разработанную систему для пожарных, мы разработали физическую структуру, в которой обработанные результаты используются в качестве входных данных для создания дополненной реальности, способной сообщать пожарным об их местонахождении и ключевых особенностях вокруг них, которые имеют жизненно важное значение для спасательной операции. под рукой, а также функция планирования пути, которая действует как виртуальный гид, помогая дезориентированным службам быстрого реагирования вернуться в безопасное место. В сочетании эти четыре подхода представляют собой новый подход к пониманию, передаче и синтезу информации, который может значительно улучшить реакцию пожарных и их эффективность, а также сократить потери жизней.

5. Модель на основе автокодировщика для больших несбалансированных промышленных данных (arXiv) (автокодировщик)

Автор: Чао Чжан1, Стхити Бом

Аннотация: С распространением устройств Интернета вещей распределенные системы управления теперь захватывают и обрабатывают больше датчиков с более высокой частотой, чем когда-либо прежде. Эти новые данные из-за их объема и новизны не могут быть эффективно использованы без помощи методов, управляемых данными. Глубокое обучение становится многообещающим методом анализа этих данных, особенно при моделировании мягких датчиков. Сильные репрезентативные возможности сложных данных и гибкость, которую они предлагают с архитектурной точки зрения, делают их темой активных прикладных исследований в промышленных условиях. Однако успешные применения глубокого обучения в мягком зондировании все еще не широко интегрированы в системы управления предприятиями, потому что большинство исследований по мягкому зондированию не имеют доступа к крупномасштабным промышленным данным, которые разнообразны, зашумлены и неполны. Поэтому результаты, опубликованные в большинстве исследовательских работ, нелегко воспроизвести при применении к разнообразным данным в промышленных условиях. Здесь мы предоставляем наборы производственных данных, которые намного больше и сложнее, чем данные общедоступных открытых программных датчиков. Более того, наборы данных поступают с заводов Seagate, находящихся в активной эксплуатации, с необходимой анонимизацией, поэтому они отражают сложный и шумный характер реальных данных. Мы представляем модель классификации многоголового автокодировщика, взвешенную по дисперсии, которая хорошо подходит для многомерных и сильно несбалансированных данных. Помимо использования методов взвешивания или выборки для обработки сильно несбалансированных данных, модель также одновременно предсказывает несколько выходных данных, используя обучение представлению с контролируемым выходом и многозадачное взвешивание.

Заключение

Это был мой список статей по машинному обучению и глубокому обучению, которые я бы порекомендовал вам прочитать в 2021 году. Надеюсь, вам понравится читать и вы узнаете что-то новое из этих статей. :)