Прежде всего, вы должны знать, что я буду говорить и объяснять все в этом блоге, как если бы вы были моей бабушкой ❤ (эта милая женщина…).

Может быть, вы согласны, может быть, нет, но если вы думаете, что это интересная методология, вы получите всю эту информацию настолько просто, насколько я смогу.

Итак, мы собираемся поговорить о чем-то, что так быстро распространяется и развивается по всему миру, и это искусственный интеллект, точнее машинное обучение.

Что такое искусственный интеллект?

Я почти уверен, что когда я упоминаю об этом, вы представляете что-то вроде:

И это почти правильно!….. ну по крайней мере в концепте.

Не волнуйтесь, человечество еще не придумало терминатора!

Искусственный интеллект (ИИ) — это область изучения людей, занимающихся наукой с помощью компьютеров. Эта область изучения делает упор на создание интеллектуальных машин, которые работают и реагируют как люди.

Некоторые из видов деятельности, для которых предназначены компьютеры с искусственным интеллектом, включают:

  • Распознавание речи
  • Обучение
  • Планирование
  • Решение проблем

И мы сосредоточимся на части Обучение. Вот где появляется машинное обучение.

Машинное обучение можно понять так же просто, как обучить наши компьютеры. Да, учить так же, как мы учим своих детей. Точнее, учить ребенка, который ничего не знает ни о чем, и мы должны учить его с нуля.

Так чему же мы будем учить компьютер?

научить его готовить, может быть?

научить его управлять велосипедом?

В машинном обучении мы учим и обучаем программу (которую мы будем называть моделью) с нашего компьютера, чтобы принять мудрое решение (сделать полезный прогноз) на основе того, чему я ее учу (информация, которую я буду давать). Это). И мы будем использовать эти решения/прогнозы, чтобы сказать нашей компьютерной программе, чтобы она предприняла действие.

Например, о действии, предпринятом на основе прогнозов, мы можем подумать, что Youtube рекомендует нам видео на основе того, что мы смотрели, или, может быть, точнее, так наша электронная почта отделяет спам-письма от других.

Как проводится это учение?

У нас есть 2 способа обучения нашей компьютерной модели: один, когда мы «контролируем» процесс обучения, а другой, когда мы «не контролируем». Соответственно они называются:

  • Контролируемое обучение
  • Неконтролируемое обучение

На самом деле, в машинном обучении мы можем решить, под каким контролем мы хотим проводить это обучение, другими словами, у нас есть спектр контроля.

Но для нашей цели это понять довольно основы. мы будем на борту этих двух крайностей (контролируемых и неконтролируемых).

Контролируемое обучение

При контролируемом обучении мы обучаем непосредственно модели. Другими словами, мы сообщаем компьютеру, что есть, а что нет.

например, если мы хотим обучить нашу компьютерную модель распознаванию яблок, в обучении с учителем мы должны давать обучающие уроки о том, что такое аппелль и что на самом деле делает яблоко яблоком. Например:

Другими словами, мы заполним наш компьютер всей возможной информацией о яблоках. Таким образом, на основе этого компьютер может распознать его, когда он передается ему.

И что именно я должен поставить в модель, чтобы распознать яблоко?

Для этого мы будем использовать некоторые математические инструменты, называемые алгоритмами, которые в простейшем случае представляют собой набор инструкций, которые принимают входные данные (что-то, что я даю) и обеспечивают выходные данные (что-то, что будет возвращено мне) на основе об отношениях между этими двумя.

В обучении с учителем у нас есть 2 алгоритма (в зависимости от задачи, которую мы будем решать, и мы поймем это позже), которые мы можем использовать для построения нашей модели:

  • Регрессия
  • Классификация

Регрессия

Это метод определения взаимосвязи между двумя или более переменными.

Проблема регрессии возникает, когда выходная переменная является реальным или непрерывным значением, таким как «зарплата» или «вес».

Переменные — это не более чем информация, которую я даю, и информация, которая будет возвращена мне. А в случае обучения с учителем я контролирую то, что должно быть возвращено мне (как учитель смотрит на какой-то результат от ученика).

Давайте сделаем небольшую скобку, чтобы было понятно:

— — — — — — — — — — — — — — — — — — — — — — — — — — — — — — —

Следуя примеру с яблоками, после того, как все узнали о том, что такое яблоко, я ожидаю, что модель способна сказать мне, что такое яблоко, а что нет, верно?

Здесь мы будем использовать некоторые обозначения:

  • выходное значение: зависимая переменная
  • входные значения: независимая переменная

Итак, позвольте мне упростить это следующим образом:

Зависимая переменная(выход) — это ответ, который студент даст мне после всего, чему я его научил, и, конечно же, он должен быть равен тому, что я сказал студенту ответить.

Независимая переменная (входные данные) будет «тестовыми вопросами», которые я даю студенту, чтобы проверить, выучил он или нет. В случае с яблоком, может быть, дать ученику корзину, полную фруктов, каждый фрукт будет независимой переменной.

И, наконец, моделью будет мыслительный процесс, построенный учащимся после всех уроков. Мы также можем видеть это как взаимосвязь, обнаруженную учащимся между вводом/вводом и выводом.

Теперь, когда мы это поняли, мы можем вернуться к теории. Таким образом, эта связь представляет собой математическое выражение, описывающее, как изменение зависимой переменной связано с изменением одной или нескольких независимых переменных и зависит от них. Собственно, это и есть модель.

— — — — — — — — — — — — — — — — — — — — — — — — — — — — — — —

Давайте вспомним, что проблема регрессии возникает, когда выходная переменная является реальным или непрерывным значением.

Например, какая из этих задач является задачей регрессии? (от geeksforgeeks):

  • Предсказание возраста человека
  • Предсказание национальности человека
  • Предсказание, вырастет ли цена акций компании завтра
  • Предсказание, связан ли документ с наблюдением НЛО?

Решение:прогнозирование возраста человека (поскольку это реальная величина, прогнозирование национальности является категоричным, вопрос о том, будет ли расти цена акций, является дискретным — ответ да/нет, прогнозирование того, имеет ли документ отношение к НЛО, снова дискретный ответ да/нет).

Чтобы покончить с регрессией (на данный момент), у нас есть 3 типа регрессии в зависимости от наших зависимых и независимых переменных (мои входные данные и мои выходные данные):

  • Линейная регрессия. Здесь у нас есть только одна независимая переменная, которая используется для прогнозирования выходных данных, т. е. зависимая переменная.
  • Множественная регрессия. Здесь у нас есть более одной независимой переменной, которая используется для прогнозирования выходных данных, то есть зависимой переменной.
  • Полиномиальная регрессия. Здесь связь между зависимой и независимой переменными соответствует полиномиальной функции (какой-то другой математический инструмент, который нам не следует использовать прямо сейчас). Например, сначала память увеличивается с возрастом, затем достигает определенного порога в определенном возрасте, а затем начинает уменьшаться по мере старения.

Классификация

Это процесс поиска или обнаружения модели, которая помогает разделить данные (входные данные) на несколько категориальных классов (семейств).

Проблема классификации возникает, когда выходной переменной является категория, например "красный" или "синий", например национальность человека или спам в приведенных выше примерах.

Модель классификации пытается сделать некоторый вывод из наблюдаемых значений. Учитывая один или несколько входных данных, модель классификации попытается предсказать значение одного или нескольких результатов (это означает, в какой категории из тех, которые я определил, будут входные данные, которые я даю).

Короче говоря, классификация будет предсказывать категорию передаваемых данных. Он классифицирует это.

Например, что из этого является проблемой классификации? (от geeksforgeeks):

  • Предсказание пола человека по стилю его почерка
  • Прогнозирование цены дома в зависимости от площади
  • Предсказание, будет ли муссон нормальным в следующем году
  • Предсказать, сколько копий музыкального альбома будет продано в следующем месяце

Решение: предсказание пола человека Предсказание того, будет ли сезон дождей нормальным в следующем году. Два других — регресс.

Так как в регрессии у нас есть несколько типов алгоритмов классификации, о которых стоит упомянуть, нам не нужно слишком углубляться, но хорошо знать, что они у нас всегда под рукой на случай, если они нам понадобятся.

  • Двоичная классификация.Если алгоритм пытается сгруппировать 2 отдельные группы классов, он называется бинарной классификацией.
  • Мультиклассовая классификация.Если алгоритм пытается сгруппировать объекты более чем в 2 группы, это называется мультиклассовой классификацией.
  • СилаАлгоритмы классификации обычно работают очень хорошо.
  • Недостатки — склонны к переоснащению и могут быть неограниченными. Например, — классификатор спама по электронной почте.
  • Логистическая регрессия/классификация.Если переменная Y является бинарной категориальной (т. е. 0 или 1), мы используем логистическую регрессию для прогнозирования. Например,прогнозирование того, является ли данная транзакция по кредитной карте мошенничеством или нет.
  • Наивный байесовский классификатор.Наивный байесовский классификатор основан на теореме Байеса. Этот алгоритм обычно лучше всего подходит, когда размерность входных данных высока. Он состоит из ациклических графов, имеющих один родительский и множество дочерних узлов. Дочерние узлы не зависят друг от друга.
  • Деревья решений.Дерево решений представляет собой древовидную структуру, похожую на диаграмму, которая состоит из внутреннего узла (тест на атрибут), ветви, которая обозначает результат теста, и конечных узлов, которые представляют распределение классов. Корневой узел является самым верхним узлом. Это очень широко используемый метод, который используется для классификации.
  • Машина опорных векторов.Машина опорных векторов или SVM выполняет работу по классификации, находя гиперплоскость, которая должна максимизировать разницу между двумя классами. Эти машины SVM подключены к функциям ядра. Области, в которых SVM широко используются, — это биометрия, распознавание образов и т. д.

Я знаю, что информации было много, но это здорово, что она здесь, она не исчезнет. Мы можем возвращаться туда и обратно столько, сколько захотим, чтобы хорошо понимать вещи, и я рекомендую это!

Вот какая-то шутка, чтобы перевести дух.

в порядке…. двигаться дальше!

Неконтролируемое обучение

Так вот учитель исчезает!

Мы позволим компьютеру учиться самостоятельно!

Здесь мы не будем говорить компьютеру, что есть, а что нет, мы позволим ему самому найти сходство/образы в информации (входах), которую мы ему передаем.

В отличие от машины с учителем, методы машинного обучения без учителя нельзя напрямую применять к регрессии или задаче классификации, потому что вы понятия не имеете, какими могут быть значения выходных данных, что делает невозможным обучение алгоритма как обычно.

Другими словами, в модели нет подсказок, как классифицировать каждый фрагмент данных, и для этого она должна выводить собственные правила.

Неконтролируемое машинное обучение направлено на выявление ранее неизвестных закономерностей в данных, но в большинстве случаев эти закономерности являются плохим приближением к тому, чего может достичь машинное обучение с учителем. Кроме того, поскольку вы не знаете, какими должны быть результаты, невозможно определить, насколько они точны, что делает контролируемое машинное обучение более применимым к реальным задачам.

Значит, обучение без учителя бесполезно?

Вовсе нет, лучшее время для использования неконтролируемого машинного обучения — это когда у вас нет данных о желаемых результатах, то есть обнаружить что-то, чего вы не знаете, например, определить целевой рынок для совершенно новый продукт, который ваш бизнес никогда не продавал раньше.

И в завершение, вот несколько неконтролируемых методов машинного обучения, о которых стоит упомянуть (на случай, если они нам когда-нибудь понадобятся) но сейчас нам не нужно углубляться в них.

  1. Кластеризация позволяет автоматически разбивать набор данных на группы в соответствии с их сходством. Однако часто кластерный анализ переоценивает сходство между группами и не рассматривает точки данных как отдельные личности. По этой причине кластерный анализ — плохой выбор для таких приложений, как сегментация клиентов и таргетинг.
  2. Обнаружение аномалий может автоматически обнаруживать необычные точки данных в вашем наборе данных. Это полезно для выявления мошеннических транзакций, обнаружения неисправных частей оборудования или выявления выбросов, вызванных человеческим фактором во время ввода данных.
  3. Анализ ассоциаций определяет наборы элементов, которые часто встречаются вместе в вашем наборе данных. Розничные торговцы часто используют его для анализа корзины, потому что он позволяет аналитикам обнаруживать товары, которые часто покупаются одновременно, и разрабатывать более эффективные стратегии маркетинга и мерчендайзинга.
  4. Модели со скрытыми переменными обычно используются для предварительной обработки данных, например для уменьшения количества функций в наборе данных (уменьшение размерности) или разбиения набора данных на несколько компонентов.

И стоит также сказать, что, конечно, мы можем использовать обучение без учителя и, возможно, затем обучение с учителем к тому, что мы нашли, например!

Ссылки: