Подходя к концу 2019 года, мы размышляем о году, в начале которого уже публиковалось 100 статей о машинном обучении в день, а его конец, похоже, станет годом рекордного финансирования для ИИ.

Но путь к получению реальной пользы от науки о данных и искусственного интеллекта может быть долгим и трудным.

Перефразируя Эрика Бейнхокера из Института нового экономического мышления, можно сказать, что есть физические технологии, которые развиваются с темпами науки, и социальные технологии, которые развиваются со скоростью, с которой люди могут изменение - намного медленнее.

Применительно к области науки о данных и искусственного интеллекта самые сложные алгоритмы глубокого обучения или самые надежные и масштабируемые конвейеры потоковых данных в реальном времени (`` физические технологии '') мало что значат, если решения не принимаются эффективно, организационные процессы активно препятствуют науке о данных и AI и приложения AI не принимаются из-за отсутствия доверия («социальные технологии»).

Имея это в виду, в моих прогнозах на 2020 год я пытаюсь сбалансировать оба аспекта с упором на реальную ценность для компаний, а не только на "крутые вещи" для команд по анализу данных.

1. Роли в области науки о данных и ИИ продолжают тенденцию к специализации. На практике существует разделение на «инженерные» роли в области науки о данных, ориентированные на большие производственные системы и инфраструктуру и платформы, которые их поддерживают («инженеры по данным / машинному обучению / искусственному интеллекту»), и «наукоемкие» данные. научная роль, которая сосредоточена на исследовательской работе и поддержке принятия решений («Специалисты по обработке данных / Специалисты по бизнес-аналитике / Консультанты по аналитике»).

Контрастные наборы навыков, разные ментальные модели и устоявшаяся структура отделов делают этот образец убедительным. Первый естественным образом связан с ИТ и становится все более популярным по мере того, как все больше моделей запускается в производство. Это также оказалось жизнеспособным карьерным переходом от разработки программного обеспечения (например, здесь, здесь и здесь). И наоборот, оперативность поддержки принятия решений и необходимость постоянно преодолевать неопределенность требуют, чтобы специалисты по данным, работающие в качестве консультанта, были встроены в бизнес, а не управлялись через проекты.

Мы продолжаем незаметно отходить от идеи единорога, потому что то, что кто-то может что-то делать, не означает, что он или она должны. Несмотря на всю ценность талантливых исполнителей, они не являются сравнительным преимуществом, когда дело доходит до создания и масштабирования больших команд по анализу данных.

2. Понимание науки о данных и искусственного интеллекта становится более важным. Становится очевидным, что узким местом для ценности науки о данных могут быть не технические аспекты науки о данных или искусственного интеллекта (ах!), А зрелость реальных потребителей науки о данных.

Хотя некоторые технологические компании и крупные корпорации имеют фору, растет понимание того, что внутренние программы обучения часто являются лучшим способом для развития внутренней зрелости. Это связано с их способностью настраивать контент, начиная с того места, где находится организация, и согласовывать обучение с выявленными бизнес-проблемами компании и внутренними наборами данных.

3. Сквозное управление моделями становится лучшей практикой там, где требуется производство. По мере того, как фактическое присутствие проектов в области науки о данных и искусственного интеллекта в производстве становится все больше, проблемы, которые необходимо решить, слились в дисциплину сквозного управления моделями. Это включает в себя развертывание и мониторинг моделей («Model Ops»), различные уровни поддержки и контроль над тем, когда переобучать или перестраивать модели, когда они естественным образом энтропируют с течением времени.

Models Ops и системы, поддерживающие эту деятельность, также представляют собой отдельный набор навыков, который отличается от навыков специалистов по обработке данных и инженеров машинного обучения, которые определяют развитие как этих команд, так и ИТ-организаций, которые их поддерживают.

4. Наука о данных и этика ИИ продолжают набирать обороты и начинают превращаться в отдельную дисциплину. Эффект второго порядка от автоматизированного принятия решений в масштабе всегда был проблемой, но, наконец, он становится все более популярным в общественном сознании. Это стало возможным благодаря известности таких инцидентов, как Скандал с Cambridge Analytica и Amazon отказалась от своего секретного инструмента найма ИИ, который продемонстрировал предвзятое отношение к женщинам.

Сама область находит определение вокруг кластеров тем, с деятельностью, связанной с автоматическим принятием решений, и когда нужно иметь человеческий фактор, алгоритмическую предвзятость и справедливость, конфиденциальность и согласие, а также долгосрочные опасности на пути к искусственному общему интеллект.

Особо следует отметить взаимодействие между наукой о данных и глобальными правилами конфиденциальности. GDPR действует с середины 2018 года, и теперь существуют ограничения на обработку и профилирование данных, требования прозрачности модели и возможность привлечения к ответственности организаций, над которыми работают специалисты по обработке данных, за неблагоприятные последствия.

Технологии обычно опережают нормативные парадигмы на несколько лет, но регулирование догоняет. Это вызовет кратковременную боль, поскольку команды специалистов по обработке и анализу данных и ИИ научатся работать в новых ограничениях, но в конечном итоге приведет к долгосрочной выгоде, поскольку надежные игроки отделены от злоумышленников.

5. Совпадение инструментов вызывает путаницу из-за множества способов выполнения одной и той же задачи, при этом разные группы предпочитают разные подходы в зависимости от своего опыта. Это, вероятно, и дальше будет вызывать путаницу, поскольку новые участники отрасли могут видеть только часть целого.

Сегодня вы можете моделировать корпоративные инструменты, если работаете в крупных организациях, которые могут себе их позволить. Вы можете моделировать в среде базы данных, если вы являетесь администратором баз данных с MS SQL Server. Вы можете вызвать API машинного обучения и разработать «продукт ИИ», если вы инженер-программист. Вы можете создать и развернуть ту же модель на облачных платформах, таких как AWS Sagemaker или Azure ML Studio, если вы знакомы с облачными предложениями. И список продолжается.

Конечный результат может стать благодатной почвой для недоразумений и войн за сферы влияния из-за того, что аналогичные функции доступны в разных формах. В этой ситуации организации, способные обеспечить высокий уровень доверия между разрозненными техническими командами, будут теми, кто в полной мере воспользуется всеми преимуществами доступного сегодня набора инструментов.

6. Усилия по «демократизации» и «автоматизации» науки о данных и искусственного интеллекта удваиваются, а стороны, которые обещают слишком много, терпят неудачу. Поскольку таланты несколько неуловимы (или, по крайней мере, распределяются неправильно), автоматизированная наука о данных и искусственный интеллект - привлекательная идея. Однако реальность остается в том, что границы технологий позволяют автоматизировать только определенные четко определенные задачи.

Если взять типичный проект по науке о данных, то в процессе построения модели происходит много всего:

  1. Выбор правильного проекта, формирование команды с правильным набором навыков, информирование о подходе и обеспечение необходимой поддержки и денег, если это необходимо.
  2. После того, как проект настроен на запуск, выберите, как сформулировать проблему и какой подход использовать. Например. следует ли рассматривать прогнозирование сбоев как контролируемую или неконтролируемую задачу машинного обучения? Или систему, подлежащую моделированию? Или проблема с обнаружением аномалии?
  3. После того, как вы сформулировали проблему, выбрав правильные данные для использования и выбрав правильные данные, не для использования, например по этическим соображениям.
  4. Обработка на стороне данных, чтобы убедиться, что это не приведет к ошибочной модели. Например, данные электронной почты на самом деле требуют больших усилий, чтобы добраться до фактического сообщения среди заголовков, тегов и т. Д.
  5. Когда у вас есть данные, генерируйте гипотезу - например, При интеллектуальном анализе данных в массивных наборах данных много работы заключается в том, чтобы решить, какие идеи стоит изучить, прежде чем «заниматься наукой о данных».
  6. Постройте и оптимизируйте модель. ‹Это то, что автоматизируется›
  7. После того, как вы построили и оптимизировали свои модели (если вы вообще решили использовать модели), решите, является ли это ценным или нет.
  8. После того, как вы решили, что работа стоит того, встраивайте разработанные модели машинного обучения в производственную систему и установленный бизнес-процесс. Один только этот шаг часто занимает больше времени, чем все остальные шаги вместе взятые.
  9. После развертывания модели разрабатывайте будущие выпуски, чтобы убедиться, что созданное полностью функционирует, тестируется и интегрируется с другими системами.
  10. После того, как вся система машинного обучения будет хорошо протестирована и будет соответствовать инженерным стандартам, она будет фактически интерпретировать результаты проекта по науке о данных и действовать в соответствии с ними.

Подобно тому, как Wix, Squarespace и другие конструкторы веб-сайтов не лишили работы веб-разработчиков, AutoML и DataRobot не заменят специалистов по обработке данных. (Однако это отличные инструменты, и их следует продавать как таковые.)

7. Архитектура на краю и в тумане становится мейнстримом. Практическая необходимость и инженерные затраты на развертывание все более крупных сложных моделей приводят к появлению новых архитектурных паттернов. Это особенно верно в отношении требований как к вычислениям, так и к передаче данных для видеоаналитики в реальном времени, которую хвалят как приложение-убийца для пограничной аналитики. Тенденция поддерживается как достижениями в области компьютерного зрения, так и новым специализированным коммерческим оборудованием, таким как AWS Deeplens.

8. Цикл ажиотажа и поток определений меняются. Сначала он был сфокусирован на «больших данных», а затем перешел на «науку о данных» около 5–6 лет назад, и 2020 год может стать годом, когда все, что связано с «искусственным интеллектом» мог настигнуть разговор.

Одним из побочных эффектов привлечения большого количества новичков является упрощение области, которая в случае науки о данных сводилась к ее сокращению, чтобы уделять больше внимания статистике и машинному обучению, при этом не уделяя внимания другим дисциплинам математического моделирования, таким как исследование и моделирование операций.

Похожая модель начала проявляться в искусственном интеллекте, с аналогичным акцентом на машинное обучение, нейронные сети и глубокое обучение, часто в контексте зрения и обработки естественного языка. В настоящее время снижение акцента, похоже, происходит в классических областях искусственного интеллекта, таких как представление знаний, экспертные системы и планирование, среди других.

В качестве примечания: я полностью понимаю, что сложно перейти в новую область, а масштабы науки о данных и искусственного интеллекта могут быть ошеломляющими. Что я считаю наиболее полезным при разрушении этой стены, так это редко больше контента, это лучшая навигация. Намного полезнее иметь человека, который может сориентировать то, что мы знаем и чего не знаем, и составить личную дорожную карту обучения, чем неупорядоченный список ссылок на учебные материалы.

9. Конкуренция выходит на рынок микросхем AI. Nvidia имеет огромную фору на рынке оборудования для глубокого обучения и в настоящее время доминирует над большей частью ИИ в облаке. Хотя есть значительные участники из Google, Qualcomm, Amazon, Xilinx и множества стартапов, конкуренция по-прежнему в основном происходит на маржах.

В конечном итоге это изменится, поскольку ИИ - это не просто чип, а готовые портативные аппаратные платформы, желательно без привязки к поставщику. Новый чип Intel и Facebook может быть ожидаемым конкурентом, или он может исходить от китайцев. компании, спешащие производить собственные чипы, разрывают торговую войну ». Почти сразу же во второй половине 2019 года компании Alibaba и Huawei представили свои чипы.

10. И, наконец, по-прежнему легче преподавать науку о данных и искусственный интеллект и продавать инструменты, чем заставить их работать на практике. Создание ценности из науки о данных и искусственного интеллекта не только сложно, но и требует обсуждения и консенсуса не только специалистами по данным, но и инженерами по машинному обучению.

Системы искусственного интеллекта часто по своей сути являются машинами оптимизации. И вопрос, который мы только начали задавать, - «для чего мы оптимизируемся?» Несмотря на все внимание, которое уделяется «правильному выполнению действий» в области данных, моделирования и архитектуры, возможно, более сложной задачей является «поступать правильно» с точки зрения проектирования с учетом опыта и ценностей, ориентированных на человека.

Точно так же решения, основанные на данных, должны приниматься старшими лицами, не имеющими технического образования, часто запутанными в сложной сети политических интриг и часто преуспевающих на протяжении всей своей карьеры без науки о данных.

На производственном фронте успешное развертывание модели - это всего лишь небольшая часть продукта, которая может быть ограничена множеством факторов, начиная от внутренней ИТ-среды и заканчивая архаичными нормативными требованиями, и все это помимо неотъемлемой неопределенности работы с данными. Одержимость собственными «моделями в производстве» также может быть несколько ошибочной, и один из основных КПЭ науки о данных остается самым труднодостижимым - «вы передумали?»?

Все изображения, представленные выше, предназначены исключительно для некоммерческих иллюстративных целей. Эта статья написана в личном качестве и не отражает точку зрения организаций, в которых я работаю или связан.