Старт в области искусственного интеллекта

Основные моменты семинара Microsoft по искусственному интеллекту | сентябрь 2020 г.

Что такое искусственный интеллект?

Как бы вы определили интеллект?

Искусственный интеллект или ИИ можно определить как теорию и разработку компьютерной системы, способной выполнять задачи, обычно требующие человеческого интеллекта, например:

Зрительное восприятие
Распознавание речи
Принятие решения
Перевод между языками и т. д.

История ИИ/машинного обучения

В 1950 году у Алана Тьюринга возникла идея:

Если машина могла вести разговор о том, что неотличимо от разговора с человеком, то было ответственно сказать, что машина «думает». Это было придумано как «Тест Тьюринга».

Дартмутская конференция 1956 года: было придумано слово «искусственный интеллект».

В 1966 году программа ELIZA прошла тест Тьюринга. (Но это были просто языковые правила, а не «мышление».

«Зима ИИ» 1970-х была вызвана пессимизмом в отношении эффективности машинного обучения.

В 1990-е годы «Машинное обучение», реорганизованное в отдельную область, начало процветать.

1997 год. Deep Blue от IBM побеждает чемпиона мира по шахматам.

В 2010-х годах машинное обучение становится неотъемлемой частью многих широко используемых программных сервисов.

Жизненный цикл науки о данных

Наука о данных быстро развивается и становится одной из самых горячих областей в индустрии высоких технологий. Благодаря стремительному развитию вычислительной производительности, которое теперь позволяет анализировать массивные наборы данных, мы можем в беспрецедентном масштабе выявлять закономерности и информацию о поведении пользователей и мировых тенденциях.

Типы алгоритмов обучения

Под наблюдением
Без присмотра
Частично контролируется

Алгоритмы контролируемого обучения

Используется для прогнозирования целевого атрибута/метки
Требуется набор данных с целевыми значениями атрибутов

Модели контролируемого обучения можно разделить на

Модели классификации (типы задач, в которых выходная переменная представляет собой категорию, такую как красный, синий или болезнь, не болезнь)
Модели регрессии (тип ситуаций, когда выходная переменная является вещественным числом)

Алгоритмы обучения без учителя

Не имеет набора данных со значениями целевых атрибутов
Используется для поиска шаблона среди входных наборов данных.

Модели неконтролируемого обучения можно дополнительно сгруппировать в

Кластеризация (проблема кластеризации заключается в том, что вы хотите обнаружить неотъемлемую группировку данных, например группировку клиентов по покупательскому поведению.
Ассоциация (проблема изучения правила ассоциации возникает, когда вы хотите обнаружить правила, которые описывают большие части ваших данных, например, люди, которые покупают X, также склонны покупать Y.

Алгоритмы обучения с полуучителем

Полууправляемые модели используются в случаях, когда часть входных данных помечена, а часть нет.
Пример: Фотоархив, где помечены только некоторые изображения.

Некоторые алгоритмы машинного обучения/ИИ:

Регрессия (под наблюдением)
Кластеризация (без присмотра) → K означает
Классификация (под наблюдением) → Деревья решений
Нейронная сеть

Регрессия

Получено из статистики
Используется в машинном обучении
Рассчитать значение зависимой переменной (цели) на основе независимой переменной
Цель = примерный прогноз продаж/роста, прогноз финансового портфеля, кредитоспособность страхователей по страховым компаниям и прогноз цен на недвижимость.

Линейная регрессия

Цель: Нарисуйте прямую линию, которая наилучшим образом соответствует всем точкам данных на диаграмме рассеивания.
Линия наилучшего соответствия также известна как линия регрессии.
Линия регрессии должна иметь минимальное расстояние от всех точек данных (наименьшее количество ошибок).
Кривая первой степени
y = MX + c, где m и c постоянны

Преимущества регрессии

Просто для понимания и реализации
Основано на математике
Обычно гораздо меньше времени обучения
Непрерывное прогнозирование стоимости

Проблемы с регрессией

Не справляется со сложными формами.
Слишком просто для многих реальных проблем

Некоторые современные способы использования регрессии

Прогнозирование спроса
Прогноз цен на акции
Кредитная оценка

Классификация

Классификация используется для категориальных значений ответов, где данные могут быть разделены на определенные «классы».
Классификация используется для прогнозирования вывода дискретных значений (т.е. 0/1, Да/Нет)

Двухклассная классификация

Предсказывает между двумя категориями. Да или нет
Прямые ответы: вопросы с двумя вариантами ответов: да или нет, верно/неверно
Этот твит положительный? Будет ли этот клиент возобновлять свои услуги? Какой из двух купонов привлекает больше клиентов?

Мультиклассовая классификация

Предсказывает между несколькими категориями.
Комплексные ответы: вопросы с несколькими вариантами ответов.
Каково настроение этого твита? Какую услугу выберет клиент на этот раз? Какая из нескольких акций привлекает больше клиентов?

Древо решений

Дерево решений представляет собой структуру, похожую на блок-схему.
Создан в перевернутом виде с корнем вверху.
Внутренние узлы содержат условное обозначение, в зависимости от которого деревья разбиваются на ветви/ребра.
Листовые узлы (конечный узел) содержат метку класса.
Примеры использования: понимание поведения потребителей, решение банков о выдаче кредитов.
Пример: Будут ли сегодня дети играть в крикет? Будут ли дети играть в крикет в данных погодных условиях?

Ключевая идея дерева решений

Посмотрите на прошлые данные
Определите атрибут, который лучше всего классифицирует прошлые данные
Используйте этот атрибут в корне дерева
Повторите этот процесс для каждой ветки

Преимущества дерева решений

Белая коробка, которую легко интерпретировать и объяснить.
Они привыкли находить важное свойство.
На них не влияют выбросы; требуется меньше очистки данных.
После создания это может обеспечить быструю классификацию.

Некоторые современные варианты использования деревьев решений

Астрономия: фильтрация шума от космического телескопа Хаббл
Финансовый анализ: подтверждение привлекательности акций
Энергетические системы: мощность использует прогнозирование
Молекулярная биология: анализ последовательностей аминокислот

Кластеризация — K-средних

Выбрать k случайных точек в n-мерном пространстве и найти наиболее близкие к ней факты
Точки данных в одном кластере будут похожи друг на друга
Делайте это много раз, пока не будет достигнуто наименьшее среднее расстояние внутри кластера.

Преимущества кластеризации

Нет необходимости в секретных входных данных
Нет необходимости иметь информацию об атрибутах

Недостатки кластеризации

Результаты могут отличаться от двух последовательных запусков
Трудно найти подходящие средства
Необходимо указать количество кластеров

Некоторые современные способы использования K-средних

Электронная коммерция: сегментация пользователей на основе покупок
Кредит: сегментация соискателей кредита
Супермаркеты: поиск правильных скидок для клиентов
Классификация документов

Искусственные нейронные сети (ИНС)

Искусственная нейронная сеть (ИНС) — это часть компьютерной системы, предназначенная для имитации того, как человеческий мозг анализирует и обрабатывает информацию. Это основа искусственного интеллекта (ИИ), которая решает проблемы, которые оказались бы невозможными или сложными по человеческим или статистическим стандартам.

Преимущества нейронных сетей

Отлично подходит даже для атрибутов с непрерывным значением
Может иметь тысячи атрибутов
Нет необходимости разбираться в предметной области/проблеме
Обычно более высокая точность по сравнению с другими методами классификации
Доступно множество библиотек/реализаций

Проблемы с нейронной сетью

Результат черного ящика. Невозможно проверить / понять результаты
Обучение занимает много времени
Иногда недостаток знаний предметной области выявляется позже

Некоторые современные приложения

Любые когнитивные навыки
Предиктивный анализ (прогнозирование кредитного риска человека на основе информации, которую он предоставил в кредитной заявке, прогнозирование просроченных платежей)
Click Stream Analysis (вывод демографической информации пользователей, интересов, истории просмотров, покупательских привычек и прогнозирования вероятных будущих действий).
Fraud Detection (Обнаружение мошеннических онлайн-транзакций)

Проблемы и риски с ИИ

Предвзятость может повлиять на результаты
Ошибки могут причинить вред
Данные могут быть раскрыты
Решения могут не работать для всех
Пользователи должны доверять сложной системе
Кто несет ответственность за решения, принимаемые ИИ?

Принципы ответственного ИИ

Справедливость
Надежность и безопасность
Конфиденциальность и безопасность
Инклюзивность
Прозрачность
Подотчетность

ОСТАВАЙТЕСЬ ЛЮБОПЫТНЫМИ И ОСТАВАЙТЕСЬ АКТУАЛЬНЫМИ