Основы машинного обучения

Брифинг об AI, ML, DL и DS.

В настоящее время мы чаще слышим такие слова, как искусственный интеллект, машинное обучение, глубокое обучение и наука о данных. Из 10 человек я слышу эти слова от 7-8 из них, и почему бы и нет, сфера Data Science процветает, и считается самой сексуальной профессией 21 века. Итак, очевидно, что вы слышите эти термины. Но я вижу, что из этих 7–8 человек только 2–3 знают разницу между искусственным интеллектом, машинным обучением, глубоким обучением и наукой о данных. Итак, давайте просто рассмотрим каждый термин и поймем разницу между ними, а позже мы подробно рассмотрим машинное обучение.

Искусственный интеллект

Искусственный интеллект — это компьютерные программы, которые учатся выполнять задачи, требующие типов интеллекта, которые обычно выполняются людьми. По сути, он пытается имитировать поведение человека. В зависимости от ситуации машина может принять собственное решение без вмешательства человека. При создании приложения ИИ иногда используют машинное обучение и глубокое обучение внутри них.

Применение искусственного интеллекта

а) АВТОМОБИЛИ

б)Roomba -Roomba представляет собой компактный компьютеризированный пылесос, который автоматически перемещается по дому. В последней модели Roomba 980 используется настоящийИИ.

в) ЧАТБОТ, АЛЕКСА, СИРИ

Машинное обучение

Это подполе ИИ. Это исследование дает машинам возможность учиться без явного программирования. По сути, нет точного определения машинного обучения. ML дает нам статистические инструменты для более глубокого изучения данных.

Том Митчелл определил ML как:

«Говорят, что компьютерная программа учится на опыте E в отношении некоторого класса задач T и показателя производительности P, если ее производительность при выполнении задач в T, измеряемая P, улучшается с опытом E».

давайте разберем приведенное выше определение на примере:

Предположим, наша программа электронной почты наблюдает за тем, какое электронное письмо мы помечаем или не помечаем как спам, и на основе этого обучения мы попытаемся определить E, P и T. Итак, здесь T (задача) будет классифицировать электронные письма как спам или не спам. , E(Experience) будет наблюдать за тем, как мы помечаем электронные письма как спам или не спам. и, наконец, P (Производительность) будет количеством писем, правильно классифицированных как спам/не спам.

Применение ОД

а) Прогноз погоды

б) Распознавание рукописного ввода

в) Автономный вертолет

Глубокое обучение

Это подмножество AI и ML, которое пытается имитировать человеческий мозг через нейронную сеть. Это требует огромного количества ДАННЫХ и вычислительной мощности.

он имеет много методов, таких как:

а) ANN-искусственная нейронная сеть

б) CNN-Сверточная нейронная сеть

в) RNN-рекуррентная нейронная сеть

Приложения:

Распознавание голоса
Распознавание видео
Текстовая аналитика

Наука о данных

Наука о данных включает не только AI, ML, DL, но есть еще одна вещь, которая очень важна, если кто-то хочет выжить в области DS, — это наличие «бизнес-знаний». Наука о данных — это область, которая сочетает в себе статистику, анализ данных, научные методы.

Основная цель науки о данных — извлекать значимую информацию и идеи из данных. Это возможно только с помощью различных математических алгоритмов и алгоритмов машинного обучения. Следовательно, машинное обучение является ключевым элементом науки о данных. Некоторыми из типов данных, используемых в DS, являются данные изображения, текстовые данные, видеоданные, аудиоданные и т. д.

Давайте узнаем больше о машинном обучении

Машинное обучение имеет различные методы, такие как обучение с учителем, обучение без учителя и обучение с подкреплением.

Контролируемое обучение

Как следует из названия, контролируемый означает не что иное, как нахождение под чьим-то наблюдением (учитывая функцию и целевые переменные с выводом). В этом случае мы должны сначала научить машину выполнять задачу, а затем после нескольких экспериментов машина выполняет задачи. сам по себе, наблюдая опыт.

у нас есть два типа контролируемого обучения

Регрессия
Классификация

Регрессия

Он предсказывает выход с непрерывным значением. То есть выходом функции являются не категории, а непрерывное значение.

Классификация

Он прогнозирует выход с дискретным значением (0 или 1, да или нет и т. д.). Это процесс, в котором набор данных классифицируется по дискретным значениям или категориям.

Пример

а) Регрессия. Данный набор данных состоит из веса и роста. Попытайтесь предсказать ИМТ для каждого веса и данных о росте. ИМТ как функция веса и роста является непрерывным выходом, поэтому это проблема регрессии. , предсказание прогноза погоды и т. д.

(b) Классификация. Учитывая пациента с опухолью, мы должны предсказать, является ли опухоль злокачественной или доброкачественной, предсказать сезон дождей в следующем году и т. д.

Неконтролируемое обучение

Это называется неконтролируемым обучением, потому что никто не контролирует. В неконтролируемом обучении у нас нет никаких ярлыков, оно подходит к проблемам практически без представления о том, как может выглядеть наш результат.

Проблемы неконтролируемого обучения могут быть дополнительно сгруппированы в проблемы кластеризации и ассоциации.

Кластеризация. Проблема кластеризации заключается в том, что вы хотите обнаружить внутреннюю группировку данных. В этом алгоритме мы формируем разные группы с одинаковыми характеристиками (одинаковыми характеристиками), где каждая группа будет называться кластером.

Применение кластеризации:

Новости Google — если история или новость связаны или имеют один и тот же контекст, он группирует и показывает их в одном кластере. Как мы видим на картинке, это разные истории, но из-за одной и той же категории они упомянуты в одном кластере. (На картинке показаны 2 кластера)

2.Анализ социальных сетей

3. Сегментация рынка и т. д.

Без кластеризации: в этом алгоритме он преобразует или изменяет ввод/данные. Давайте разберемся в этом на известном примере алгоритма коктейльной вечеринки.

Применение

Распространенной проблемой, не связанной с кластеризацией, является алгоритм коктейльной вечеринки. Предположим, что два человека и два микрофона ведут запись в двух разных местах на собрании. Микрофон 1 ближе к человеку 1, а микрофон 2 ближе к человеку 2. Оба микрофона могут поглотить разговор, однако голос ближайшего человека громче. После прохождения записи через алгоритм вечеринки выходы разделили бы 2 голоса. Это позволяет вам искать структуру в хаотической среде и трансформирует информацию. Следовательно, это может быть алгоритм без кластеризации.

Обучение с подкреплением

Этот алгоритм обучения основан на политике вознаграждения и наказания. Это в основном вдохновлено бихевиористской психологией. Предположим, у нас есть агент в некоторой среде. Агент выполняет любую задачу в этой среде, и в зависимости от его результатов мы либо вознаграждаем, либо наказываем. И на основе этого обучения повышается его точность.