Как разбить ваш проект ИИ на понятные части, которые имеют экономический смысл

Области искусственного интеллекта и науки о данных пережили экстремальный цикл ажиотажа. Эта технология несет огромные надежды, но вся шумная шумиха делает ее сложной или пугающей, чтобы отфильтровать, где на самом деле находится ценность, и как использовать существующие компоненты ИИ, которые уже легко доступны и доступны.

В то время как все говорят об ИИ как о следующем скачке вперед в бизнесе и жизни людей, естественные эмоциональные вопросы для большинства бизнес-лидеров на всех уровнях заключаются в следующем:

  1. Как моя организация следит за тем, чтобы мы не упустили что-то важное, что продолжает набирать обороты?
  2. Как я могу использовать эти новые технологии, чтобы они оказали ценное влияние на мою компанию, не рискуя при этом слишком большими деньгами или другими ценными ресурсами и энергией?

В этом посте я пытаюсь наметить настоящую стратегию успеха в ИИ и науке о данных, отделив эмоции от ажиотажа. Я попытаюсь изложить это в простом для понимания процессе исследований и разработок для успешного проекта ИИ или науки о данных. Он будет основан на тяжелых уроках, извлеченных из многих проектов.

1. Разъяснение больших терминов: ИИ, наука о данных, машинное обучение, большие данные… или что?

Прежде чем перейти к процессу исследований и разработок, основанных на бизнес-кейсах, я попытаюсь немного прояснить «Большие термины», чтобы мы все были на одной волне. Вокруг каждого из них много шума, но не позволяйте им запугать или увлечь себя. Особенно потому, что они часто означают разные вещи для разных людей из-за чрезмерной шумихи и чрезмерного использования.

Искусственный интеллект (ИИ)

Возможно, вы заметили, что выше я использую термины ИИ (искусственный интеллект) и наука о данных как синонимы. Я сделал это намеренно. ИИ как термин, кажется, присутствует во многих ажиотажах, когда речь идет о приложениях для науки о данных, он привлекает внимание, в нем есть определенная крутость, вызывающая у нас ощущение, что мы живем на грани научно-фантастического мира. Но с технической точки зрения «ИИ» — довольно расплывчатый термин без четких границ, своего рода универсальное средство для каждой дисциплины, которое заставляет машины выглядеть и вести себя (в некоторой степени) разумно.

Наука о данных (DS)

Этот термин самый младший в семье. Это относится ко всему, что связано с анализом данных и алгоритмами, особенно с наукой, стоящей за ними: аналитикой больших данных/интеллектуальным анализом данных, машинным обучением, статистикой, математикой, информацией и компьютерными науками.

Тогда это AI или DS?

С этого момента в этом посте я буду больше использовать термин «наука о данных» для «всеобъемлющей» цели.

Какой-то мудрый человек (не помню точно, кто это был) как-то сказал, что пока что-то называется ИИ, мы имеем дело с «научной фантастикой». Но как только это реализуется в реальной жизни, оно становится просто «информатикой», а не ИИ. Это может объяснить, почему ИИ всегда кажется скорее будущим, чем прошлым или даже настоящим, хотя многое из того, что мы уже используем в нашей повседневной жизни, наверняка считалось бы научной фантастикой всего десять лет назад.

Вероятно, по тем же причинам я лично использую термин ИИ, когда я в игривом настроении с друзьями, говоря об уникальности ИИ, или когда в режиме продавца 😉 пытаюсь привлечь внимание. Когда я занимаюсь хакерством дома, экспериментирую, учусь, дурачусь с соревнованиями Kaggle или обсуждаю проекты и стратегии со своей командой, я говорю о науке о данных и ищу ее.

Это относится и к названиям команд — скорее всего, у вас будет команда по науке о данных, которая будет работать над любым из ваших бизнес-возможностей в области искусственного интеллекта или науки о данных. Такая команда будет состоять из специалистов по данным (кандидатов наук в области данных, которые могут заниматься научной стороной исследования данных, исследования и проверки возможностей для бизнеса) и инженеров данных. strong> кто знает, как работать с большими данными, как внедрять результаты исследований в операционную среду и т. д.

Машинное обучение

Машинное обучение звучит почти как искусственный интеллект, но в сообществе специалистов по данным это более конкретный и технический термин, относящийся к определенным компонентам или процессам в ИИ, которые сосредоточены на обучаемой части машинного интеллекта. Существует множество алгоритмов машинного обучения, таких как (глубокие) нейронные сети, деревья решений, байесовские алгоритмы и т. д., а также областей применения или данных, к которым они могут применяться. Данные могут быть любыми, начиная от данных транзакций и заканчивая изображениями, видео, аудио и вибрационным анализом, даже музыкой, обработкой естественного языка (NLP), сенсорными диагностическими данными для случаев использования профилактического обслуживания и т. д. По сути, все эти алгоритмы основаны на какие-то статистические процедуры.

Большие данные

Этот термин по существу относится к любым данным, объем которых слишком велик для обработки или анализа с помощью «традиционных» средств обработки данных на одном компьютере, что, в свою очередь, требует специальных методов решения проблем, связанных с обработкой больших объемов данных. Проблемы с большой нагрузкой могут возникнуть, например, из-за размера необходимого хранилища данных (требование распределенных систем хранения и поиска) или из-за необходимости обрабатывать информацию почти в реальном времени (требование методов машинного обучения) и т. д.

Другие условия

Очевидно, что при работе над этой темой вы можете столкнуться с еще несколькими тесно связанными терминами, включая интеллектуальный анализ данных, аналитику больших данных, бизнес-аналитику (BI) и т. д., но для краткости я ограничусь только этими. несколько самых смелых, которые сегодня украшают декорации хайпа.

2. Настройка стратегии обработки данных — необходимое понимание

Создание стратегии науки о данных начинается с понимания ее основных перспектив, применимости и ограничений.

2.1 Основные перспективы науки о данных в бизнесе

С точки зрения бизнеса наука о данных полезна по двум основным причинам. Это помогает вам искать новые источники дохода и помогает вам избежать потери денег из-за неэффективности, мошенничества или человеческих ошибок, и это достигается путем просмотра ваших данных и применения к ним анализа данных и приемов машинного обучения.

Пример. В первые годы существования Skype, в 2005 году, я работал в качестве бэкенд-разработчика. Как только Skype запустил свою первую премиальную функцию — звонки через SkypeOut и резко увеличил свои доходы, он также начал потерял около 10% своих доходов из-за запросов на возврат средств и штрафов за мошенничество с кредитными картами, и поставщик платежных услуг пригрозил закрыть его, если мы не найдем способы уменьшить мошенничество. изначально мы разрабатывали различные виды жестко запрограммированных проверок на мошенничество, чтобы блокировать наиболее очевидные модели мошенничества, но это была битва с ветряной мельницей — мошенники достаточно хорошо адаптировали свое поведение, чтобы проанализированные человеком и жестко запрограммированные проверки на мошенничество стали неактуальными всего через несколько дней после развертывания программы. В какой-то момент я начал разрабатывать конвейер машинного обучения на основе наивного байесовского метода и в итоге получил тот, который смог успешно обнаружить 90% мошеннических транзакций в режиме реального времени, при этом уровень ложных срабатываний оставался ниже 0,1%. Кроме того, он смог изучать новые модели мошенничества практически в режиме реального времени, сохраняя свою эффективность, несмотря на появление новых форм мошенничества.

2.2 Применимость ИИ в бизнесе

Хорошая вещь в науке о данных заключается в том, что ее основные формы стратегии реализации довольно независимы от области, в которой вы их применяете. Везде, где у вас накапливаются или передаются данные, есть большая вероятность, что у вас есть неиспользованные возможности, скрытые там для огромных положительных результатов.

Высококлассная команда специалистов по обработке и анализу данных обычно способна одинаково обрабатывать данные любого типа, будь то транзакции, изображения, видео, аудио, вибрации, обработка текста на естественном языке и т. д. Приложения со значительной ценностью для бизнеса, основанные на эти данные могут включать кредитный скоринг, обнаружение мошенничества, прогнозирование ценности жизни клиента, распознавание изображений, профилактическое обслуживание, чат-боты с обработкой естественного языка (NLP), обнаружение вторжений (в кибербезопасности), прогнозы конверсии и оттока клиентов, и это лишь некоторые из них.

2.3 Ограничения ИИ в бизнесе

Пока все это выглядит как обычный софтверный проект, правда? Просто немного крутости, добавленной с помощью ИИ, и все? Неправильно!

Вот то, что отличает проекты по науке о данных от обычных программных проектов, что делает их чрезвычайно беспорядочными и почти наверняка вашими проектами, отнимающими время и деньги, если вы не остерегаетесь их ограничений, и, с другой стороны, Это хорошо контролируемый успешный вклад в вашу бизнес-стратегию, если вы полностью принимаете во внимание разницу.

Существенная разница между проектом по науке о данных и обычным программным проектом кроется в его основных ограничениях:

1. Природа вероятности. В контексте вариантов использования в бизнесе алгоритмы машинного обучения работают на основе вероятности, а не определения. У вас всегда будет вопрос о точности при принятии во внимание его ответов. Помните пример обнаружения мошенничества выше — всегда будет некоторое количество «ложноотрицательных» и «ложноположительных» результатов, но обнаружение 90% мошенничества (что означает предотвращение потери 9% доходов) по-прежнему ставит компанию в значительно лучшее положение, устраняя риск того, что ее платежный провайдер прекратит обслуживание, избегая значительных потерь и, для общего блага, усложняя жизнь мошенникам — даже ценой потери менее 0,1% правомерных сделок.

Если в вашем бизнес-кейсе нулевая терпимость к «ложным» ответам, вы просто не сможете применять эти методы. Однако, если ваше экономическое обоснование может работать с «достаточно хорошей» точностью, тогда просто возникает вопрос о достижении этого «достаточно хорошего» результата.

Например, в очень экстремальном случае с самоуправляемыми автомобилями, когда у вас есть каскады компонентов ИИ в игре, можно спросить, как это нормально иметь ошибки!? Ответ заключается в том, что могут быть «ошибки» (с точки зрения машинного обучения) в системном анализе сенсорных данных в реальном времени, но их можно сузить до отдельных компонентов в сочетании с применением определенных принципов устойчивости, которые призывают никогда не полагаться на на одном источнике данных или датчике — таким образом, чтобы эти ошибки не представляли опасности для чьего-либо имущества или здоровья.

2. Вопрос выполнимости. Вероятностный характер науки о данных приводит к другому важному вопросу: даже если ваше экономическое обоснование способно принять некоторые «ложные» ответы в ходе действий, достижим ли «достаточно хороший» уровень точности вообще? Вы можете разработать полное программное обеспечение для формирования кадров, которое плавно интегрирует ваш алгоритм машинного обучения в вашу операционную среду, масштабируется и т. д., но если алгоритм машинного обучения действительно не может принимать решения с точностью, которая имела бы смысл для вашего бизнес-кейса, тогда весь продукт разработка вокруг него была бы пустой тратой, если не даже контрпродуктивной.

И это постоянная реальность проектов по науке о данных — необходимая точность не всегда достижима (по крайней мере, не с первой попытки).

3. Процесс

После изложения вышеприведенных заметок то, что следует, на самом деле довольно просто и прямолинейно.

Шаг 1. Задайте вопрос

В основе любого проекта по науке о данных лежит установленный вопрос, на который вы хотите, чтобы ваша система ответила. Когда вы думаете о своем первом (или следующем) приложении ИИ, убедитесь, что вы точно знаете, на какой вопрос вы будете отвечать, и убедитесь, что он имеет четкую связь с вашим влиянием на бизнес.

Примеры вопросов:

  1. Вопрос. Можем ли мы предсказать мошенничество в наших страховых приложениях? Можем ли мы адаптироваться к изменениям схемы мошенничества в режиме реального времени? Воздействие. Предотвращение потери денег из-за мошенничества.
  2. Вопрос. Можем ли мы обнаружить контрабанду опасных товаров (радиоактивные материалы, компоненты оружия и т. д.) на основе анализа соответствующей документации, логистической информации и рентгеновских снимков грузов в морских портах и ​​аэропортах? Воздействие: создание более безопасного сообщества.
  3. Вопрос: можем ли мы предсказать механические неисправности до того, как система действительно сломается? (Этот вопрос называется профилактическим обслуживанием, и на него можно ответить, например, прослушивая звуковые датчики, прикрепленные к корпусу машины, и анализируя изменения характера вибрации.) Воздействие: предотвращение механических неисправностей. и потеря доходов, даже затраты на ущерб, которые могут быть связаны с этим в противном случае.

Шаг 2. Определите, что для вас будет означать "достаточно хорошая" точность

После того, как вы определили вопрос своего проекта, но прежде чем начать вкладывать деньги, время и другие ресурсы в тяжелую работу по разработке, важно определить, насколько хорошо вы должны будете ответить на этот вопрос, чтобы ваше экономическое обоснование было успешным. смысл. Другими словами, вам нужно будет количественно определить для вашей системы какой-то целевой показатель ключевого показателя эффективности (KPI), который имеет смысл в бизнес-кейсе.

Пример. В случае обнаружения мошенничества вы хотите быть уверены, что допустимая частота ложных срабатываний при реализации автоматической блокировки транзакций при срабатывании обнаружения мошенничества. Целевое значение KPI может заключаться, например, в том, что на каждые 10 % обнаруженного фактического мошенничества допустимо 0,01 % ложных срабатываний, чтобы автоматическая блокировка транзакций имела смысл. На практике это дает сильное руководство специалистам по данным, которые, вероятно, легко изолируют довольно разумную часть мошенничества, а затем, для другой части, где определенность уже не так хороша, может быть применена какая-либо другая мера (чем простая автоматическая блокировка). применяться.

Шаг 3. Изучение данных, исследование и проверка влияния

До этого шага процесса вы не тратите практически никаких ресурсов, кроме некоторой базовой работы по определению вопроса и установлению цели KPI, которая имеет смысл.

Теперь критический вопрос: действительно ли это можно сделать? Можно ли ответить на ваш вопрос с уровнем качества, превышающим ваш минимальный порог KPI? Это этап проверки влияния на бизнес. Его цель — определить все соответствующие источники данных, изучить, обработать, реструктурировать и привести данные в порядок, разработать модели машинного обучения и т. д., которые могли бы для создания воздействия. Результатом этого шага являются наборы обучающих, тестовых и проверочных данных, которые позволяют вам наглядно подтвердить выполнимость вашего продукта еще до того, как начнется фактическая разработка программного продукта для него.

Используя термин «доказуемо», я имею в виду повторяемость процесса в соответствии с научными стандартами и качествами — помните, мы имеем дело с учеными данных (часто с докторской степенью) за работой, с акцентом на слове ученый. Одно из ключевых качеств научного метода — повторяемость. Это означает, что технически результат вашего исследования и исследования данных включает в себя все точные шаги, сценарии и словари данных, показывающие, как именно данные были получены, преобразованы и разделены на наборы данных для обучения, тестирования и проверки, модель машинного обучения. (s) и демонстрационные инструкции.

Как вы можете себе представить, это первый шаг, когда необходимо вложить некоторые начальные ресурсы, учитывая, что исследования и изучение данных — это усилия, которые должны выполняться специально обученными людьми. Тем не менее, это обычно остается довольно скудным и подлым по сравнению с проектом разработки продукта, который следует за ним. Идея состоит в том, чтобы не вкладывать средства в разработку продукта, пока осуществимость проекта все еще висит в воздухе. Инвестирование в разработку продукта имеет смысл только после того, как исследование подтвердит влияние. Вы должны быть готовы рискнуть, инвестируя в эти циклы проверки, применяя разумные методы управления капиталом и стратегии принятия решений по стоп-лоссу для каждого проекта, чтобы ваши средства. Но если вам не нравятся беспорядочные корпоративные американские горки, вам не следует рисковать и вкладывать средства в разработку продукта, пока не подтвердится влияние вашего бизнеса на спекуляции данными.

Если исследования не подтверждают предполагаемое влияние во время начальных циклов спринта, этому может быть несколько причин:

  1. Данные, с которыми вы работаете, могут быть слишком поверхностными или в них могут отсутствовать легко обнаруживаемые и значимо применимые сигналы. В этом случае хорошо, что вы еще не начали тратить ресурсы на разработку продукта и можете начать искать другие идеи, чтобы оказать влияние.
  2. Также может случиться так, что соответствующий сигнал очевиден в ваших данных, но он сопротивляется пересечению ожидаемого целевого порога KPI, который позволил бы вам проверить экономическое обоснование. В этом случае вы можете поговорить со своей командой по науке о данных и обсудить возможность создания дополнительных функций данных, которых у вас еще нет. Это может означать, что вам потребуется несколько месяцев, чтобы ваши существующие продукты, те, которые генерируют соответствующие данные, собрали и сохранили эти дополнительные необходимые данные, после чего вы могли бы повторить свое исследование и посмотреть, достижима ли рассматриваемая цель KPI.

Шаг 4. Разработка продукта

После того, как ваше исследование на шаге 3 будет успешным, разработайте соответствующий продукт данных на основе результатов таким образом, чтобы он легко интегрировался в вашу операционную среду, масштабировался и позволял вам оказывать реальное влияние.

Этот этап больше похож на обычную разработку программного продукта. Здесь вы должны применить те же принципы, начиная с идей и дизайн-спринтов (если задействованы взаимодействия с пользовательским интерфейсом), чтобы убедиться, что целевые пользователи собираются понять новый продукт. и принять идею. Затем вы разработаете свой первый MVP (минимально жизнеспособный продукт), чтобы еще раз подтвердить, что вы на правильном пути, но на этот раз с убедительными доказательствами из практики, и итеративно продолжите разработку своего продукта и повышение его эффективности. к вашему бизнес-кейсу.

Пока продукт остается актуальным, у вас, как правило, всегда есть что улучшить. В дополнение к регулярной части продукта, связанной с разработкой программного обеспечения, вы будете продолжать отслеживать производительность части продукта, связанной с наукой о данных, время от времени пересматривая циклы исследований, чтобы либо устранить неполадки, связанные с изменениями в источниках данных, либо усилить/оптимизировать влияние результатов.

4. Общая картина

Надеюсь, схема процесса, приведенная выше, может пролить свет на то, как вы можете начать внедрение науки о данных в свою компанию. В реальной жизни, по мере развития успешных продуктов, будут возникать более непрерывные вложенные циклы разработки, идущие один за другим, и принципы, которые вы будете применять для их выполнения, будут развиваться по мере того, как вы будете изучать и знакомиться с предметом. Тем не менее, суть процветающего проекта по науке о данных остается прежней: успешный продукт по науке о данных — это продукт исследовательского проекта, а успешная стратегия разработки продуктов по науке о данных основана на таких проектах.

Основной движущей силой успеха является, по сути, соблюдение этих двух принципов на протяжении всего процесса, никогда не забывая о них ни на одном этапе:

  1. Будьте уверены, что вы всегда знаете, какое влияние вы ожидаете. Будьте уверены, что то, что вы делаете, действительно важно, оказывает положительное влияние. Это фундаментальное правило для выживания всего в бизнес-контексте, а не только науки о данных.
  2. Проверяйте критические предположения как можно раньше и как можно чаще. При работе с проектами по науке о данных убедитесь, что необходимая точность ответа на установленный вопрос достижима на уровнях, при которых влияние имеет экономический смысл.

5. Куда идти дальше?

Если вы успешный предприниматель, вы, вероятно, уже знаете, что большинство крупных проектов началось с множества экспериментов. То же самое и в области науки о данных. Вот несколько советов, как распознать возможности науки о данных.

Как правило, хорошей идеей будет поддерживать привычку проводить мозговой штурм для поиска новых интересных идей — независимо от того, в какой области вы работаете. Так что потратьте некоторое время, регулярно думая о своем бизнесе, а также о работе, которую вы в него вкладываете, и помните, что хорошие идеи продукта могут появиться из самых болезненных проблем.

Проблемы, которые лучше всего подходят для решения с помощью методов науки о данных, — это, как следует из названия, те, в которых данные можно анализировать с научной строгостью. Как упоминалось выше, рассматриваемые данные могут быть любыми: транзакции, изображения, аудиосигналы, тексты на естественном языке, видеоклипы, колебания температуры, другие сенсорные данные окружающей среды и так далее.

Когда вы столкнетесь с потенциально интересной (эффективной) идеей, начните думать о количественной оценке ее воздействия (помните о целевом ключевом показателе производительности), о том, какие у вас есть данные, которые можно проанализировать, и о том, как вы могли бы проверить свои предположения.