Основные моменты семинара Microsoft по искусственному интеллекту | сентябрь 2020 г.
Что такое искусственный интеллект?
Как бы вы определили интеллект?
Искусственный интеллект или ИИ можно определить как теорию и разработку компьютерной системы, способной выполнять задачи, обычно требующие человеческого интеллекта, например:
- Зрительное восприятие
- Распознавание речи
- Принятие решения
- Перевод между языками и т. д.
История ИИ/машинного обучения
В 1950 году у Алана Тьюринга возникла идея:
Если машина могла вести разговор о том, что неотличимо от разговора с человеком, то было ответственно сказать, что машина «думает». Это было придумано как «Тест Тьюринга».
Дартмутская конференция 1956 года: было придумано слово «искусственный интеллект».
В 1966 году программа ELIZA прошла тест Тьюринга. (Но это были просто языковые правила, а не «мышление».
«Зима ИИ» 1970-х была вызвана пессимизмом в отношении эффективности машинного обучения.
В 1990-е годы «Машинное обучение», реорганизованное в отдельную область, начало процветать.
1997 год. Deep Blue от IBM побеждает чемпиона мира по шахматам.
В 2010-х годах машинное обучение становится неотъемлемой частью многих широко используемых программных сервисов.
Жизненный цикл науки о данных
Наука о данных быстро развивается и становится одной из самых горячих областей в индустрии высоких технологий. Благодаря стремительному развитию вычислительной производительности, которое теперь позволяет анализировать массивные наборы данных, мы можем в беспрецедентном масштабе выявлять закономерности и информацию о поведении пользователей и мировых тенденциях.
Типы алгоритмов обучения
- Под наблюдением
- Без присмотра
- Частично контролируется
Алгоритмы контролируемого обучения
- Используется для прогнозирования целевого атрибута/метки
- Требуется набор данных с целевыми значениями атрибутов
Модели контролируемого обучения можно разделить на
- Модели классификации (типы задач, в которых выходная переменная представляет собой категорию, такую как красный, синий или болезнь, не болезнь)
- Модели регрессии (тип ситуаций, когда выходная переменная является вещественным числом)
Алгоритмы обучения без учителя
- Не имеет набора данных со значениями целевых атрибутов
- Используется для поиска шаблона среди входных наборов данных.
Модели неконтролируемого обучения можно дополнительно сгруппировать в
- Кластеризация (проблема кластеризации заключается в том, что вы хотите обнаружить неотъемлемую группировку данных, например группировку клиентов по покупательскому поведению.
- Ассоциация (проблема изучения правила ассоциации возникает, когда вы хотите обнаружить правила, которые описывают большие части ваших данных, например, люди, которые покупают X, также склонны покупать Y.
Алгоритмы обучения с полуучителем
- Полууправляемые модели используются в случаях, когда часть входных данных помечена, а часть нет.
- Пример: Фотоархив, где помечены только некоторые изображения.
Некоторые алгоритмы машинного обучения/ИИ:
- Регрессия (под наблюдением)
- Кластеризация (без присмотра) → K означает
- Классификация (под наблюдением) → Деревья решений
- Нейронная сеть
Регрессия
- Получено из статистики
- Используется в машинном обучении
- Рассчитать значение зависимой переменной (цели) на основе независимой переменной
- Цель = примерный прогноз продаж/роста, прогноз финансового портфеля, кредитоспособность страхователей по страховым компаниям и прогноз цен на недвижимость.
Линейная регрессия
- Цель: Нарисуйте прямую линию, которая наилучшим образом соответствует всем точкам данных на диаграмме рассеивания.
- Линия наилучшего соответствия также известна как линия регрессии.
- Линия регрессии должна иметь минимальное расстояние от всех точек данных (наименьшее количество ошибок).
- Кривая первой степени
- y = MX + c, где m и c постоянны
Преимущества регрессии
- Просто для понимания и реализации
- Основано на математике
- Обычно гораздо меньше времени обучения
- Непрерывное прогнозирование стоимости
Проблемы с регрессией
- Не справляется со сложными формами.
- Слишком просто для многих реальных проблем
Некоторые современные способы использования регрессии
- Прогнозирование спроса
- Прогноз цен на акции
- Кредитная оценка
Классификация
- Классификация используется для категориальных значений ответов, где данные могут быть разделены на определенные «классы».
- Классификация используется для прогнозирования вывода дискретных значений (т.е. 0/1, Да/Нет)
Двухклассная классификация
- Предсказывает между двумя категориями. Да или нет
- Прямые ответы: вопросы с двумя вариантами ответов: да или нет, верно/неверно
- Этот твит положительный? Будет ли этот клиент возобновлять свои услуги? Какой из двух купонов привлекает больше клиентов?
Мультиклассовая классификация
- Предсказывает между несколькими категориями.
- Комплексные ответы: вопросы с несколькими вариантами ответов.
- Каково настроение этого твита? Какую услугу выберет клиент на этот раз? Какая из нескольких акций привлекает больше клиентов?
Древо решений
- Дерево решений представляет собой структуру, похожую на блок-схему.
- Создан в перевернутом виде с корнем вверху.
- Внутренние узлы содержат условное обозначение, в зависимости от которого деревья разбиваются на ветви/ребра.
- Листовые узлы (конечный узел) содержат метку класса.
- Примеры использования: понимание поведения потребителей, решение банков о выдаче кредитов.
- Пример: Будут ли сегодня дети играть в крикет? Будут ли дети играть в крикет в данных погодных условиях?
Ключевая идея дерева решений
- Посмотрите на прошлые данные
- Определите атрибут, который лучше всего классифицирует прошлые данные
- Используйте этот атрибут в корне дерева
- Повторите этот процесс для каждой ветки
Преимущества дерева решений
- Белая коробка, которую легко интерпретировать и объяснить.
- Они привыкли находить важное свойство.
- На них не влияют выбросы; требуется меньше очистки данных.
- После создания это может обеспечить быструю классификацию.
Некоторые современные варианты использования деревьев решений
- Астрономия: фильтрация шума от космического телескопа Хаббл
- Финансовый анализ: подтверждение привлекательности акций
- Энергетические системы: мощность использует прогнозирование
- Молекулярная биология: анализ последовательностей аминокислот
Кластеризация — K-средних
- Выбрать k случайных точек в n-мерном пространстве и найти наиболее близкие к ней факты
- Точки данных в одном кластере будут похожи друг на друга
- Делайте это много раз, пока не будет достигнуто наименьшее среднее расстояние внутри кластера.
Преимущества кластеризации
- Нет необходимости в секретных входных данных
- Нет необходимости иметь информацию об атрибутах
Недостатки кластеризации
- Результаты могут отличаться от двух последовательных запусков
- Трудно найти подходящие средства
- Необходимо указать количество кластеров
Некоторые современные способы использования K-средних
- Электронная коммерция: сегментация пользователей на основе покупок
- Кредит: сегментация соискателей кредита
- Супермаркеты: поиск правильных скидок для клиентов
- Классификация документов
Искусственные нейронные сети (ИНС)
Искусственная нейронная сеть (ИНС) — это часть компьютерной системы, предназначенная для имитации того, как человеческий мозг анализирует и обрабатывает информацию. Это основа искусственного интеллекта (ИИ), которая решает проблемы, которые оказались бы невозможными или сложными по человеческим или статистическим стандартам.
Преимущества нейронных сетей
- Отлично подходит даже для атрибутов с непрерывным значением
- Может иметь тысячи атрибутов
- Нет необходимости разбираться в предметной области/проблеме
- Обычно более высокая точность по сравнению с другими методами классификации
- Доступно множество библиотек/реализаций
Проблемы с нейронной сетью
- Результат черного ящика. Невозможно проверить / понять результаты
- Обучение занимает много времени
- Иногда недостаток знаний предметной области выявляется позже
Некоторые современные приложения
- Любые когнитивные навыки
- Предиктивный анализ (прогнозирование кредитного риска человека на основе информации, которую он предоставил в кредитной заявке, прогнозирование просроченных платежей)
- Click Stream Analysis (вывод демографической информации пользователей, интересов, истории просмотров, покупательских привычек и прогнозирования вероятных будущих действий).
- Fraud Detection (Обнаружение мошеннических онлайн-транзакций)
Проблемы и риски с ИИ
- Предвзятость может повлиять на результаты
- Ошибки могут причинить вред
- Данные могут быть раскрыты
- Решения могут не работать для всех
- Пользователи должны доверять сложной системе
- Кто несет ответственность за решения, принимаемые ИИ?
Принципы ответственного ИИ
- Справедливость
- Надежность и безопасность
- Конфиденциальность и безопасность
- Инклюзивность
- Прозрачность
- Подотчетность
ОСТАВАЙТЕСЬ ЛЮБОПЫТНЫМИ И ОСТАВАЙТЕСЬ АКТУАЛЬНЫМИ