Основные моменты семинара Microsoft по искусственному интеллекту | сентябрь 2020 г.

Что такое искусственный интеллект?

Как бы вы определили интеллект?

Искусственный интеллект или ИИ можно определить как теорию и разработку компьютерной системы, способной выполнять задачи, обычно требующие человеческого интеллекта, например:

  • Зрительное восприятие
  • Распознавание речи
  • Принятие решения
  • Перевод между языками и т. д.

История ИИ/машинного обучения

В 1950 году у Алана Тьюринга возникла идея:

Если машина могла вести разговор о том, что неотличимо от разговора с человеком, то было ответственно сказать, что машина «думает». Это было придумано как «Тест Тьюринга».

Дартмутская конференция 1956 года: было придумано слово «искусственный интеллект».

В 1966 году программа ELIZA прошла тест Тьюринга. (Но это были просто языковые правила, а не «мышление».

«Зима ИИ» 1970-х была вызвана пессимизмом в отношении эффективности машинного обучения.

В 1990-е годы «Машинное обучение», реорганизованное в отдельную область, начало процветать.

1997 год. Deep Blue от IBM побеждает чемпиона мира по шахматам.

В 2010-х годах машинное обучение становится неотъемлемой частью многих широко используемых программных сервисов.

Жизненный цикл науки о данных

Наука о данных быстро развивается и становится одной из самых горячих областей в индустрии высоких технологий. Благодаря стремительному развитию вычислительной производительности, которое теперь позволяет анализировать массивные наборы данных, мы можем в беспрецедентном масштабе выявлять закономерности и информацию о поведении пользователей и мировых тенденциях.

Типы алгоритмов обучения

  • Под наблюдением
  • Без присмотра
  • Частично контролируется

Алгоритмы контролируемого обучения

  • Используется для прогнозирования целевого атрибута/метки
  • Требуется набор данных с целевыми значениями атрибутов

Модели контролируемого обучения можно разделить на

  • Модели классификации (типы задач, в которых выходная переменная представляет собой категорию, такую ​​как красный, синий или болезнь, не болезнь)
  • Модели регрессии (тип ситуаций, когда выходная переменная является вещественным числом)

Алгоритмы обучения без учителя

  • Не имеет набора данных со значениями целевых атрибутов
  • Используется для поиска шаблона среди входных наборов данных.

Модели неконтролируемого обучения можно дополнительно сгруппировать в

  • Кластеризация (проблема кластеризации заключается в том, что вы хотите обнаружить неотъемлемую группировку данных, например группировку клиентов по покупательскому поведению.
  • Ассоциация (проблема изучения правила ассоциации возникает, когда вы хотите обнаружить правила, которые описывают большие части ваших данных, например, люди, которые покупают X, также склонны покупать Y.

Алгоритмы обучения с полуучителем

  • Полууправляемые модели используются в случаях, когда часть входных данных помечена, а часть нет.
  • Пример: Фотоархив, где помечены только некоторые изображения.

Некоторые алгоритмы машинного обучения/ИИ:

  • Регрессия (под наблюдением)
  • Кластеризация (без присмотра) → K означает
  • Классификация (под наблюдением) → Деревья решений
  • Нейронная сеть

Регрессия

  • Получено из статистики
  • Используется в машинном обучении
  • Рассчитать значение зависимой переменной (цели) на основе независимой переменной
  • Цель = примерный прогноз продаж/роста, прогноз финансового портфеля, кредитоспособность страхователей по страховым компаниям и прогноз цен на недвижимость.

Линейная регрессия

  • Цель: Нарисуйте прямую линию, которая наилучшим образом соответствует всем точкам данных на диаграмме рассеивания.
  • Линия наилучшего соответствия также известна как линия регрессии.
  • Линия регрессии должна иметь минимальное расстояние от всех точек данных (наименьшее количество ошибок).
  • Кривая первой степени
  • y = MX + c, где m и c постоянны

Преимущества регрессии

  • Просто для понимания и реализации
  • Основано на математике
  • Обычно гораздо меньше времени обучения
  • Непрерывное прогнозирование стоимости

Проблемы с регрессией

  • Не справляется со сложными формами.
  • Слишком просто для многих реальных проблем

Некоторые современные способы использования регрессии

  • Прогнозирование спроса
  • Прогноз цен на акции
  • Кредитная оценка

Классификация

  • Классификация используется для категориальных значений ответов, где данные могут быть разделены на определенные «классы».
  • Классификация используется для прогнозирования вывода дискретных значений (т.е. 0/1, Да/Нет)

Двухклассная классификация

  • Предсказывает между двумя категориями. Да или нет
  • Прямые ответы: вопросы с двумя вариантами ответов: да или нет, верно/неверно
  • Этот твит положительный? Будет ли этот клиент возобновлять свои услуги? Какой из двух купонов привлекает больше клиентов?

Мультиклассовая классификация

  • Предсказывает между несколькими категориями.
  • Комплексные ответы: вопросы с несколькими вариантами ответов.
  • Каково настроение этого твита? Какую услугу выберет клиент на этот раз? Какая из нескольких акций привлекает больше клиентов?

Древо решений

  • Дерево решений представляет собой структуру, похожую на блок-схему.
  • Создан в перевернутом виде с корнем вверху.
  • Внутренние узлы содержат условное обозначение, в зависимости от которого деревья разбиваются на ветви/ребра.
  • Листовые узлы (конечный узел) содержат метку класса.
  • Примеры использования: понимание поведения потребителей, решение банков о выдаче кредитов.
  • Пример: Будут ли сегодня дети играть в крикет? Будут ли дети играть в крикет в данных погодных условиях?

Ключевая идея дерева решений

  • Посмотрите на прошлые данные
  • Определите атрибут, который лучше всего классифицирует прошлые данные
  • Используйте этот атрибут в корне дерева
  • Повторите этот процесс для каждой ветки

Преимущества дерева решений

  • Белая коробка, которую легко интерпретировать и объяснить.
  • Они привыкли находить важное свойство.
  • На них не влияют выбросы; требуется меньше очистки данных.
  • После создания это может обеспечить быструю классификацию.

Некоторые современные варианты использования деревьев решений

  • Астрономия: фильтрация шума от космического телескопа Хаббл
  • Финансовый анализ: подтверждение привлекательности акций
  • Энергетические системы: мощность использует прогнозирование
  • Молекулярная биология: анализ последовательностей аминокислот

Кластеризация — K-средних

  • Выбрать k случайных точек в n-мерном пространстве и найти наиболее близкие к ней факты
  • Точки данных в одном кластере будут похожи друг на друга
  • Делайте это много раз, пока не будет достигнуто наименьшее среднее расстояние внутри кластера.

Преимущества кластеризации

  • Нет необходимости в секретных входных данных
  • Нет необходимости иметь информацию об атрибутах

Недостатки кластеризации

  • Результаты могут отличаться от двух последовательных запусков
  • Трудно найти подходящие средства
  • Необходимо указать количество кластеров

Некоторые современные способы использования K-средних

  • Электронная коммерция: сегментация пользователей на основе покупок
  • Кредит: сегментация соискателей кредита
  • Супермаркеты: поиск правильных скидок для клиентов
  • Классификация документов

Искусственные нейронные сети (ИНС)

Искусственная нейронная сеть (ИНС) — это часть компьютерной системы, предназначенная для имитации того, как человеческий мозг анализирует и обрабатывает информацию. Это основа искусственного интеллекта (ИИ), которая решает проблемы, которые оказались бы невозможными или сложными по человеческим или статистическим стандартам.

Преимущества нейронных сетей

  • Отлично подходит даже для атрибутов с непрерывным значением
  • Может иметь тысячи атрибутов
  • Нет необходимости разбираться в предметной области/проблеме
  • Обычно более высокая точность по сравнению с другими методами классификации
  • Доступно множество библиотек/реализаций

Проблемы с нейронной сетью

  • Результат черного ящика. Невозможно проверить / понять результаты
  • Обучение занимает много времени
  • Иногда недостаток знаний предметной области выявляется позже

Некоторые современные приложения

  • Любые когнитивные навыки
  • Предиктивный анализ (прогнозирование кредитного риска человека на основе информации, которую он предоставил в кредитной заявке, прогнозирование просроченных платежей)
  • Click Stream Analysis (вывод демографической информации пользователей, интересов, истории просмотров, покупательских привычек и прогнозирования вероятных будущих действий).
  • Fraud Detection (Обнаружение мошеннических онлайн-транзакций)

Проблемы и риски с ИИ

  • Предвзятость может повлиять на результаты
  • Ошибки могут причинить вред
  • Данные могут быть раскрыты
  • Решения могут не работать для всех
  • Пользователи должны доверять сложной системе
  • Кто несет ответственность за решения, принимаемые ИИ?

Принципы ответственного ИИ

  • Справедливость
  • Надежность и безопасность
  • Конфиденциальность и безопасность
  • Инклюзивность
  • Прозрачность
  • Подотчетность

ОСТАВАЙТЕСЬ ЛЮБОПЫТНЫМИ И ОСТАВАЙТЕСЬ АКТУАЛЬНЫМИ