Дедушке повезло, вы видели эволюцию техники почти во всей ее полноте, вы видели, как человечество, если привести пример, перешло от написания текстов на пишущих машинках к компьютерам, к сотовым телефонам, а теперь диктует их машине и тому именно он выполняет запись автоматически.

Введение

Предприятия генерируют все большие объемы данных, и информации так много, что человеку невозможно управлять, сравнивать или находить закономерности, раскрывающие поведение ключевых потребителей.

Машинное обучение является производным от искусственного интеллекта (ИИ). Цель машинного обучения — понять структуру, чтобы ее могли понять и использовать люди.

Машинное обучение — это область информатики, которая отличается от традиционных вычислительных подходов. В традиционных вычислениях алгоритмы представляют собой явно запрограммированные наборы инструкций, которые компьютеры используют для вычисления или решения задач. Вместо этого алгоритмы машинного обучения позволяют компьютерам обучать ввод данных и использовать статистический анализ для получения значений, попадающих в определенный диапазон.

Из-за этого машинное обучение облегчает компьютерам создание моделей из выборочных данных для автоматизации процессов принятия решений на основе входных данных.

Почему важно машинное обучение?

С увеличением объема больших данных машинное обучение стало ключевым методом решения проблем в таких областях, как:

*Вычислительные финансы: для кредитного рейтинга и алгоритмической торговли.
*Обработка изображений и искусственное зрение: для распознавания лиц, обнаружения движения и обнаружения объектов.
*Вычислительная биология: для обнаружения опухолей, открытия лекарств и секвенирования ДНК.
*Производство энергии: для прогноза нагрузки и цены.
*Автомобилестроение, аэрокосмическая промышленность и производство: для профилактического обслуживания.
*Обработка естественного языка: для приложений распознавания голоса.

Методы машинного обучения

Двумя методами машинного обучения являются обучение с учителем, которое обучает алгоритмы на основе выборочных входных и выходных данных, помеченных людьми, и обучение без учителя, которое предоставляет алгоритму без помеченных данных, чтобы позволить ему находить структуру во входных данных.

Обучение с учителем. При обучении с учителем компьютеру предоставляются примеры входных данных, которые помечены желаемыми выходными данными. Цель этого метода состоит в том, чтобы алгоритм мог «обучаться», сравнивая свои фактические выходные данные с «обученными» выходными данными, чтобы находить ошибки и соответствующим образом изменять модель. Таким образом, контролируемое обучение использует шаблоны для прогнозирования значений меток на дополнительных немаркированных данных.

Классификация. Когда данные используются для прогнозирования категориальной переменной, контролируемое обучение также называется классификацией. Это происходит при назначении метки или индикатора, будь то собака или кошка, изображению. Когда есть только две метки, это называется бинарной классификацией. Когда категорий больше двух, проблемы называются многоклассовой классификацией.
Регрессия: При прогнозировании непрерывных значений проблемы становятся проблемой регрессии.< br /> Прогнозирование. Это процесс предсказания будущего на основе прошлых и настоящих данных. Чаще всего используется для анализа тенденций. Типичным примером может быть оценка продаж в следующем году на основе продаж текущего года и предыдущих лет.

  • Обучение без учителя. При обучении без учителя данные не помечаются, поэтому алгоритм обучения может находить общие точки среди своих входных данных. Поскольку немаркированных данных больше, чем данных с тегами, методы машинного обучения, которые облегчают обучение без учителя, особенно ценны.

Кластеризация. Группировка набора примеров данных таким образом, чтобы примеры в одной группе (или одном кластере) были более похожи (по некоторым критериям), чем в других группах. Это часто используется для разделения всего набора данных на несколько групп. Анализ может быть выполнен в каждой группе, чтобы помочь пользователям найти внутренние закономерности.
Уменьшение размеров: уменьшение количества рассматриваемых переменных. Во многих приложениях необработанные данные имеют очень многомерные функции, а некоторые функции являются избыточными или не имеют отношения к задаче. Уменьшение размерности помогает найти истинную, скрытую связь.

подходы

Как область машинное обучение тесно связано с вычислительной статистикой, поэтому базовые знания в области статистики полезны для понимания и использования алгоритмов машинного обучения. Мы рассмотрим несколько популярных подходов, которые используются в машинном обучении в время написания.

k-ближайших соседей.Алгоритм k-ближайших соседей — это модель распознавания образов, которую можно использовать как для классификации, так и для регрессии. Часто сокращенно k-NN, k в k-ближайшем соседе представляет собой положительное целое число, которое обычно мало. Как в классификации, так и в регрессии входные данные будут состоять из k ближайших обучающих примеров в пространстве.

Обучение дерева решений.Для общего использования деревья решений используются для визуального представления решений и демонстрации или информирования о принятии решений. При работе с машинным обучением и интеллектуальным анализом данных в качестве прогностической модели используются деревья решений. Эти модели сопоставляют наблюдения о данных с выводами о целевом значении данных.

Целью обучения дерева решений является создание модели, которая будет предсказывать значение цели на основе входных переменных.

В приведенном выше упрощенном дереве решений пример классифицируется путем его сортировки по дереву до соответствующего конечного узла. Затем он возвращает классификацию, связанную с конкретным листом, который в данном случае является либо Yes, либо No. Дерево классифицирует условия дня в зависимости от того, подходит ли оно для рыбалки.

Нейронная сеть.Глубокие нейронные сети оказались очень успешными для контролируемого обучения. При использовании для распознавания речи и изображений глубокое обучение работает так же или даже лучше, чем люди. Применительно к неконтролируемым задачам обучения, таким как извлечение признаков, глубокое обучение также извлекает признаки из необработанных изображений или речи с гораздо меньшим вмешательством человека.

Нейронная сеть состоит из трех частей: входного слоя, скрытых слоев и выходного слоя. Обучающие выборки определяют входной и выходной слои. Когда выходной слой представляет собой категориальную переменную, нейронная сеть является способом решения проблем классификации. Когда выходной слой является непрерывной переменной, сеть можно использовать для регрессии. Когда выходной слой совпадает с входным, сеть можно использовать для извлечения внутренних признаков. Количество скрытых слоев определяет сложность модели и возможности моделирования.

Линейная регрессия. Возможно, это самый популярный алгоритм машинного обучения и, безусловно, самый недооцененный. Многие специалисты по данным склонны забывать, что более простое почти всегда предпочтительнее сложного, когда производительность сопоставима.

линейная регрессия — это контролируемый алгоритм обучения, который предсказывает результат на основе непрерывных признаков. Линейная регрессия универсальна в том смысле, что ее можно использовать для одной переменной (простая линейная регрессия) или для многих признаков (множественная линейная регрессия).

Логистическая регрессия.Логистическая регрессия — это контролируемый алгоритм классификации, который полезен для оценки дискретных значений. Обычно он используется для прогнозирования вероятности события с использованием логистической функции, чтобы получить результат от 0 до 1. Когда я впервые изучил эту логистическую регрессию, у меня сложилось впечатление, что это своего рода нишевая вещь, и поэтому я не уделял этому всего внимания. Оглядываясь назад, я не мог ошибиться больше.

Машины опорных векторов.Машины опорных векторов, также известные как SVM, представляют собой хорошо известный контролируемый алгоритм классификации, который создает разделительную линию между различными категориями данных. Проще говоря, этот вектор рассчитывается путем оптимизации линии таким образом, чтобы ближайшая точка в каждой из групп была самой удаленной друг от друга.

Случайные леса.Случайные леса — популярный алгоритм обучения ансамбля с учителем. «Ансамбль» означает, что требуется группа «слабых учеников», которые работают вместе, чтобы сформировать один сильный предиктор. В этом случае все слабые ученики представляют собой случайно реализованные деревья решений, которые объединяются для формирования сильного предиктора — случайного леса. Посмотрите видео ниже, чтобы узнать больше о закулисных вещах, касающихся случайных лесов.

Искусственный интеллект, машинное обучение и глубокое обучение

Искусственный интеллект.ИИ включает в себя машины, которые могут выполнять задачи, характерные для человеческого интеллекта, включая такие вещи, как планирование, понимание языка, распознавание объектов и звуков, обучение и решение проблем. решения.
Мы можем разделить ИИ на две категории: общие и узкие. Общий ИИ будет обладать всеми характеристиками человеческого интеллекта, включая упомянутые выше возможности. Узкий ИИ демонстрирует некоторые аспекты человеческого интеллекта и может очень хорошо справляться с этим аспектом, но ему не хватает других областей.

Машинное обучение. По своей сути машинное обучение — это просто способ создания ИИ. «Обучение» включает в себя передачу огромных объемов данных в алгоритм и позволяет алгоритму адаптироваться и улучшаться.

Например, люди могут отмечать изображения, на которых есть кошка, а не те, на которых ее нет. Затем алгоритм пытается построить модель, которая может точно пометить изображение как содержащее кошку или нет, а также человека. Как только уровень точности становится достаточно высоким, машина «узнала», как выглядит кошка.

Глубокое обучение.Глубокое обучение — это один из многих подходов к машинному обучению. Другие подходы включают, среди прочего, обучение дереву решений, индуктивное логическое программирование, кластеризацию, обучение с подкреплением и байесовские сети.

Человеческие предубеждения

Хотя данные и вычислительный анализ могут заставить нас думать, что мы получаем объективную информацию, это не так; то, что они основаны на данных, не означает, что результаты машинного обучения нейтральны. Человеческая предвзятость играет роль в том, как данные собираются, организуются и, в конечном счете, в алгоритмах, определяющих, как машинное обучение будет взаимодействовать с этими данными.

При использовании исторических фотографий ученых в качестве обучающих данных компьютер может неправильно классифицировать ученых, которые также являются цветными людьми или женщинами. Фактически, недавнее рецензируемое исследование показало, что программы искусственного интеллекта и машинного обучения демонстрируют человеческие предубеждения, включая расовые и гендерные предрассудки.

Поскольку машинное обучение все чаще используется в бизнесе, неуловимые предубеждения могут увековечить системные проблемы, которые могут помешать людям претендовать на получение кредита, показывать рекламу высокооплачиваемых вакансий или получать варианты доставки в тот же день.

Ссылки: