Статья № 2 из серии «AI для всех»

[Эта статья представляет собой обновленную версию предыдущей статьи, опубликованной первыми двумя авторами для Dell Technologies на сайте CIO.com. Это вторая часть новой серии статей, которую мы подготовим для обновления Austin Forum.]

В первой статье этой серии мы обсуждали, как люди всегда хотели лучше понимать настоящее и предсказывать будущее, и теперь мы используем данные и аналитику, чтобы увеличить наш собственный интеллект при этом. Многие алгоритмы, помогающие достичь этого понимания, существуют уже несколько десятилетий, в том числе даже алгоритмы искусственного интеллекта (ИИ), позволяющие компьютерам рассуждать о вещах, которые обычно требуют человеческого интеллекта. Однако только в последние годы мы накопили огромные объемы цифровых данных и разработали достаточно мощные процессоры, необходимые для того, чтобы эти алгоритмы искусственного интеллекта работали над реальными человеческими и бизнес-проблемами с отличной производительностью и точностью в широком масштабе.

В этой статье мы описываем некоторые из фундаментальных технологий и процессов, которые позволяют людям, предприятиям и организациям использовать ИИ для достижения лучших результатов, принятия более обоснованных решений и многого другого. В частности, мы обсуждаем высокоуровневые концепции анализа данных, науки о данных и машинного обучения, включая глубокое обучение . Мы также обсуждаем инжиниринг данных, который является важным инструментом для всего вышеперечисленного. Это обсуждение обеспечит основу для более глубокого понимания машинного обучения (ML) и глубокого обучения (DL), которым мы будем следовать в следующих статьях. Эти более глубокие погружения в ML и DL, в свою очередь, обеспечат основу для дополнительных статей в этой серии, чтобы продемонстрировать, как эти методы применяются в реальных случаях использования.

Аналитика данных

Потребители, предприятия и организации в настоящее время генерируют, используют и даже собирают огромные объемы данных из различных источников. Будь то из социальных сетей, веб-сайтов или других онлайн-источников, со смартфонов и других клиентов / периферийных вычислительных устройств или с датчиков и инструментов, составляющих Интернет вещей (IoT), эти данные чрезвычайно ценны для тех, у кого есть инструменты. чтобы извлечь из этого выгоду. Общий набор инструментов для этих инструментов называется аналитикой данных.

Аналитика данных - это широкий термин, обозначающий использование различных методов для поиска значимых закономерностей в данных. Это процесс, с помощью которого данные преобразуются в понимание и предвидение. Инструменты анализа данных позволяют нам описывать то, что происходило в прошлом, делать выводы и углублять понимание настоящего, а также - с помощью некоторых методов - делать прогнозы на будущее.

Область анализа данных не нова. Он использовался в научном и деловом мире на протяжении десятилетий. Аналитика данных может быть такой же простой, как использование статистики для определения среднего возраста или обобщения других демографических характеристик клиентов. Диаграмма линейной регрессии в электронной таблице Excel может пролить свет на тенденции продаж или веб-трафика. Тем не менее, сколь бы старой ни была область анализа данных, она никогда не стоит на месте. Он постоянно развивается, поскольку люди и компании применяют более передовые методы аналитики, такие как приложения, ориентированные на бизнес-аналитику, анализ видеоданных в режиме реального времени, когда они передаются на ваш смартфон, или использование цифровых помощников, которые помогут вам отслеживать свои трудный день.

Неутолимое человеческое желание понять прошлое, настоящее и будущее стимулирует постоянный прогресс в области анализа данных. Эти достижения необходимы в тех случаях, когда мы не можем достичь понимания, просто решая простые проблемы. В бизнесе, правительстве и образовании существует несколько жестких научных «законов природы», которые с абсолютной уверенностью скажут вам, что должно произойти. Чтобы достичь этого более высокого уровня понимания, необходимо собирать и анализировать данные, используя передовые методы анализа данных. И это подводит нас к науке о данных.

Наука о данных

Наука о данных - это новейшая технология анализа данных. Это процесс тестирования, оценки и экспериментов с целью создания новых методов анализа данных и новых способов их применения. Как следует из названия, наука о данных, по своей сути, является практикой, которая следует устоявшимся подходам к научным исследованиям. Специалисты по обработке данных атакуют проблемы, стремясь понять, а не просто вычислить ответы, и они часто пробуют новые алгоритмы, чтобы обеспечить понимание и понимание, а затем измеряют полезность этих подходов в той же степени, что и точность результатов. Если подходы считаются в целом полезными, они становятся более широко известными и вносят свой вклад в растущий набор инструментов анализа данных.

Таким образом, потребность в аналитике будет расти, поскольку люди и компании продолжают ожидать от данных большей проницательности и дальновидности. Специалисты по обработке данных помогают осмыслить проблемы по-новому и стимулировать использование более совершенных методов анализа данных, показывая, что возможно с этими методами и правильными данными. Специалисты по обработке данных постоянно стремятся расширять свои возможности, работая над тем, чтобы использовать зрелые, проверенные инструменты аналитики.

Инженерия данных

Хотя инженерия данных не вызывает громких заголовков, она является важным инструментом для анализа данных и науки о данных. Проще говоря, инженерия данных делает данные полезными. Он преобразует структурированные, неструктурированные и полуструктурированные данные из разных систем и разрозненных хранилищ в коллекции полезных, согласованных данных, из которых приложения и алгоритмы могут извлечь понимание и ценность.

Инжиниринг данных включает в себя работу по очистке наборов данных, что часто представляет собой большой объем работы при работе с множеством различных источников данных и / или данными с пропущенными значениями, ошибками и даже смещениями. Например, если вы проводите аналитику недавних продаж домов, вам нужно исправить или удалить любую запись о доме из базы данных, в которой отсутствует цена продажи, поскольку ноль не является допустимой ценой. Эти ошибочные данные о ценах могут повлиять на ваши результаты при включении в простую аналитику, например, среднюю цену дома, поэтому инженер по обработке данных работает, чтобы удалить их из набора данных или (лучше) исправить их, если это возможно. Такие ошибки данных могут иметь скрытые последствия в более сложной аналитике данных, которые могут не сразу проявиться в результатах. Однако они могут иметь серьезные последствия при использовании результатов в любом виде анализа данных.

Хотя в последние годы вы, возможно, слышали этот термин чаще, в инженерии данных нет ничего нового. Он существует с тех пор, как были с нами цифровые данные. Но сегодня существует повышенная потребность в инженерии данных, поскольку организации работают над объединением, контролем, переформатированием и очисткой различных данных из постоянно растущего диапазона источников. Этот процесс часто требуется для приложений расширенного анализа данных, включая машинное обучение и глубокое обучение. Инженеры по обработке данных должны удалять неверные данные, устранять пробелы и следить за тем, чтобы данные не вносили предвзятость в результаты. Это тема, которую мы рассмотрим в следующей статье этой серии.

Искусственный интеллект

Искусственный интеллект относится к вычислительным системам, которые способны рассуждать о вещах, делать классификации и принимать решения, которые обычно требуют человеческого интеллекта. Общие варианты использования ИИ включают распознавание и классификацию изображений, распознавание речи и языковой перевод, рекомендации по продуктам и обнаружение мошенничества.

Хотя вы можете слышать, как люди говорят об искусственном интеллекте как о новом, на самом деле он существует с нами с 1950-х годов. С момента появления компьютеров у людей возникло представление о том, что машины можно запрограммировать так, чтобы они думали так же, как думают люди.

На протяжении многих лет к ИИ применялись разные подходы - заставить компьютеры рассуждать так же или лучше, чем люди, в отношении очень конкретных проблем. Одним из подходов, добившихся определенного успеха несколько десятилетий назад, были экспертные системы. Эти системы следуют созданным человеком заранее запрограммированным наборам правил для выполнения задач независимо от людей. Например, у всех нас есть опытные экспертные системы в виде систем автоматического реагирования, с которыми мы, скорее всего, будем взаимодействовать, когда звоним в службу поддержки клиентов и нам нужно переходить по пунктам меню с помощью нажатия кнопок. (Многие из них сейчас перерабатываются с использованием обработки естественного языка, основанной на глубоком обучении, описанном ниже, чтобы сделать его более гибким и эффективным и менее утомительным, поскольку обработка естественного языка со временем становится лучше.)

Совсем недавно подход, называемый машинным обучением, стал предпочтительным методом реализации ИИ. Еще совсем недавно было продемонстрировано, что подмножество машинного обучения, называемое глубоким обучением, чрезвычайно эффективно при определенных типах проблем и рабочих нагрузках, когда имеется достаточно данных для обучения моделей («обучающая» часть). Таким образом, на более широком уровне ИИ включает в себя множество подходов, при этом машинное обучение и глубокое обучение - два подхода, которые делают возможными современные приложения на базе ИИ.

Искусственный интеллект - всеобъемлющая концепция. Подходы машинного обучения в настоящее время являются наиболее часто используемыми и наиболее успешными подходами к ИИ в корпоративных и потребительских приложениях. Глубокое обучение - это подмножество машинного обучения, которое особенно эффективно для определенных рабочих нагрузок, таких как распознавание изображений, обработка естественного языка, анализ тональности и других применений, когда имеется достаточно высококачественных данных для обучения моделей и достижения высокой точности.

Машинное обучение и глубокое обучение

Машинное обучение - это подраздел искусственного интеллекта, который предоставляет системам возможность учиться на данных и улучшаться с течением времени без явного программирования. Алгоритмы машинного обучения используют данные для создания и уточнения правил. Затем компьютер решает, как реагировать, основываясь на том, что он узнал из данных. Ключевым моментом здесь является то, что вы позволяете данным направлять разработку правил.

Методы машинного обучения могут использовать различные типы данных, включая неструктурированные или полуструктурированные, чтобы помочь получить понимание, которое приводит к действиям и решениям, генерируемым системой.

Рассмотрим заведомо простой пример. С помощью классического машинного обучения вы можете дать системе набор функций, общих для кошек, на фотографиях нескольких типов животных. Затем вы можете позволить системе отсортировать базы данных, заполненные фотографиями животных, и найти, какие комбинации предоставленных человеком функций идентифицируют всех кошек в смеси. В процессе система машинного обучения становится все лучше и лучше, поскольку она учится на своем опыте работы с данными.

Глубокое обучение - это тип машинного обучения, построенный на глубокой иерархии взаимосвязанных слоев «нейронной сети», с возможностью изучать ключевые «особенности» из данных, предоставленных системе. Метод глубокого обучения использует огромные объемы данных и определяет общие правила и функции, связанные с этими данными. Как и в случае с классическим машинным обучением, при обучении модели глубокого обучения используются данные. Однако, если вы предоставите системе глубокого обучения достаточно изображений кошек, система сможет - сама по себе - определить особенности, которые делают кошку кошкой, например характеристики, связанные с глазами, ушами, усами и хвостом. Эта способность к обучению выходит за рамки классического машинного обучения, потому что в этом случае вам не нужно указывать системе, какие функции следует искать. Он выясняет это самостоятельно. Требуется много изображений любого типа объекта, чтобы научить модель определять особенности, которые, по ее мнению, определяют этот объект - будь то кошка, лицо, предраковая опухоль и т. Д. - но с достаточным количеством хороших данных, классификацией объектов. системы могут стать такими же хорошими или даже лучше, чем люди!

Так почему это важно?

Мы все бесчисленными способами получаем выгоду от искусственного интеллекта, который сейчас присутствует практически повсюду в нашей жизни. Вы использовали Google сегодня для поиска в Интернете? Вы получили пользу от искусственного интеллекта. Вы пользовались кредитной картой в последнее время? Вы воспользовались программами искусственного интеллекта, которые проверяют личность пользователей и останавливают потенциально мошеннические транзакции. Приходилось ли вам сталкиваться с интернет-магазинами, которые делают индивидуальные предложения на основе продуктов, которые вы просматриваете? Это ИИ в действии.

Как мы отмечали в первой статье этой серии, ИИ во многом меняет основные правила принятия решений. Например, методы машинного обучения и глубокого обучения позволяют специалистам по обработке данных использовать данные из многих источников, таких как сайты социальных сетей, системы информации о клиентах и ​​сайты электронной коммерции, чтобы делать более точные прогнозы о продуктах, которые, вероятно, будут продаваться в будущее и люди, которые могут их купить, и даже то, как увеличить вероятность того, что их купят другие люди. Лица, принимающие решения, могут соответствующим образом адаптировать свои стратегии разработки продуктов, продаж и маркетинга. И дело не только в продажах и маркетинге; практически любые процессы, которые имеют достаточно измеримых результатов (высококачественных данных), могут быть использованы для обучения моделей ИИ, чтобы делать правильные выводы, суждения, классификации или прогнозы (если временное состояние является одной из переменных обучающих данных).

Важно подчеркнуть, что ИИ больше не является нишевым приложением. Широкий спектр отраслей, государственных организаций, исследовательских проектов и даже школ используют ИИ для принятия более разумных решений, повышения эффективности процессов, достижения лучших результатов и вывода на рынок более качественных продуктов и услуг, некоторые из которых могут включать ИИ. . Сценарии использования ИИ практически безграничны: от здравоохранения и финансовых услуг до производства и национальной обороны до образования и развлечений и т. Д. Если у вас огромные объемы данных, ИИ может помочь вам найти и понять закономерности в них и использовать их для инноваций, оптимизации и принятия решений.

Далее: объяснение машинного обучения

В следующей статье этой серии мы погрузимся в классические методы машинного обучения, которые уже широко используются. В следующих статьях мы рассмотрим глубокое обучение и объясним, как определить, какие методы и когда использовать, а затем поделимся примерами использования из различных компаний. Мы надеемся, что вы и дальше будете следить за нашими сериями, поскольку мы обсуждаем, как ИИ навсегда изменит бизнес и создаст новые продукты, услуги и рабочие места.

Джей Буассо, доктор философии, специалист по стратегии в области искусственного интеллекта и высокопроизводительных вычислений в Dell Technologies, генеральный директор Vizias, а также основатель и исполнительный директор Austin Forum on Technology & Society »И Austin Smart City Alliance .

Лукас Уилсон, доктор философии, главный специалист по данным в лаборатории инноваций HPC и AI в Dell Technologies и главный аналитик в Vizias.

Джон Локман - исследователь и разработчик искусственного интеллекта в лаборатории инноваций HPC и AI в Dell Technologies, технический директор Vizias и технический директор Austin Forum on Technology & Society.