В потоке данных, которые непрерывно перерабатываются нашим болтливым видом и одновременно записываются и сохраняются машинами, которые мы построили, машинное обучение проявилось как дружелюбный джинн из бутылки, который принесет здравомыслие и решит все наши беды (и в конце концов истребит, как некоторые считают). Ну, прежде всего, мы должны признать, что именно приложение, а не теория выдвинуло машинное обучение на центральную сцену человеческого воображения. ML берет свое начало в изучении распознавания образов и вычислительной теории обучения в ИИ. Многие из теорий, которые сделали нейронные сети общеизвестной серебряной пулей для одних или оружием массового уничтожения органического разума для других, уже были разработаны в 1960-х и 70-х годах. Таким образом, среди всей шумихи, развлекательных теледебатов и выдуманных научно-популярных повествований об ИИ/МО, деловые учреждения должны помнить, что для того, чтобы оседлать волны этой экстраординарной технологической революции, они должны привязать свою стратегию к реальной действительности и сосредоточиться на создание основы для сильного AI/ML в организации.

Как практик я заметил, что проекты машинного обучения придерживаются правила 90–90 (Первые 90 % кода составляют первые 90 % времени разработки. Остальные 10 % кода составляют остальные 90 % времени разработки). Это связано с тем, что алгоритмы и модели, формирующие мозг системы, не являются узким местом в большинстве приложений. Узким местом является доступность 1) адекватных и проверенных данных, 2) подходящей инфраструктуры и соответствующей платформы, 3) нужных навыков и 4) спонсорства со стороны руководства.

В контексте вышеизложенного я считаю, что это три основные области для построения успешной и продуктивной основы AI/ML в любой организации:

1. Стратегия исполнительного спонсорства и управления. Внедрение AI/ML на предприятии, по сути, означает вплетение его в ткань корпоративной культуры. Это было бы невозможно без исполнительного спонсорства. Хотя сейчас модно бросаться банальностями вроде «Данные — это новый бензин», «ИИ — это электричество», «Создавать живые системы» и т. д. и т. д., важно подкреплять повествование позитивными действиями на местах, которые включают

а. Планируйте специальное подразделение AI/ML и привлекайте нужных специалистов с навыками, связанными с технологиями и бизнесом.

б. Назначить евангелистов и сторонников ИИ с целью демократизации ИИ в организации. Повествование об ИИ должно быть направлено как внутрь, так и наружу. Необходимы эффективные программы обучения. Партнерство с такими МООК, как Udacity и Coursera, очень помогло бы.

в. Отдайте приоритет проектам ИИ с четкой формулировкой ценности для бизнеса, чтобы они не превратились в научные проекты, а превратились в бизнес-решения, создающие конкурентное преимущество. Распределение ценных и дефицитных ресурсов должно определяться приоритетом

д. Установите краткосрочные цели и четкие измеримые и предпочтительно единые показатели для каждой программы ML для оценки прогресса.

е. Владельцы моделей имеют решающее значение для возможного и постоянного успеха любой программы, и у них должны быть четко определенные роли и обязанности.

ф. Аутсорсинг — часть работы, связанной с инжинирингом данных и DevOps/SRE, может быть передана на аутсорсинг для концентрации ресурсов на достижении бизнес-целей.

2. Включение инфраструктуры и платформы. Емкость хранилища, вычислительная мощность и программные инструменты — вот три ключа, которые вызвали нынешнюю волну успеха AI/ML. Таким образом, создание гибкой и удобной для разработчиков платформы на основе соответствующей масштабируемой инфраструктуры должно быть первоочередной задачей. Как сказал бы любой опытный архитектор машинного обучения, окончательный успех программы машинного обучения во многом будет зависеть от наличия надлежащей инфраструктуры не только для сборки и развертывания, но также для обслуживания и мониторинга. Подход Devops/SRE необходим для жизненного цикла проекта.

а. Хранение данных. Возможность собирать, хранить и быстро получать доступ к большому объему данных абсолютно необходима для успеха любого проекта машинного обучения. Персонализированный опыт, которого сейчас требуют пользователи, был бы невозможен без возможности хранить и анализировать петабайты данных. Алгоритмы глубокого обучения нуждаются в данных, и чем больше данных, тем выше точность. Хорошей новостью является то, что стоимость хранения данных со временем значительно снизилась, а внедрение твердотельных хранилищ и снижение цен на оперативную память сокращают задержки и увеличивают емкость хранилища. Организации должны иметь надежный и масштабируемый план хранения данных.

б. Вычислительная мощность. Способность обрабатывать собранные данные за разумное время — еще одна важная составляющая успешного рецепта машинного обучения. Графические процессоры общего назначения, которые были впервые представлены в 2006 году в первую очередь для обработки графики, стали средством, на котором работают современные алгоритмы машинного обучения. Хотя быстрые усовершенствования графических процессоров и сопроцессоров редко привлекают столько внимания, сколько инновации в алгоритмах машинного обучения, любая стратегия машинного обучения на уровне предприятия должна быть адаптирована к новейшему аппаратному обеспечению и обеспечивать использование подходящего оборудования даже при использовании стороннего оборудования. управляемое облако. Во многих случаях эти чипы могут сыграть решающую роль между восторженным и амбивалентным пользователем. Просто чтобы привести несколько примеров, Apple представила свой специально созданный «нейронный движок» вместе со своим чипом A11 с намерением стать предпочтительной платформой для продуктов AI; Microsoft представила Brainwave, новую систему для простого распространения систем машинного обучения; Google также включился в аппаратную игру со своим сопроцессором Pixel Visual.

c. Программные инструменты —неограниченное хранилище и грубая вычислительная мощность не будут иметь большого значения, если не будет доступно соответствующее программное обеспечение и не будет из чего выбирать. Большинство этих инструментов имеют открытый исходный код и должны быть доступны как можно большему количеству разработчиков в организации, чтобы вызвать изменение мышления и извлечь максимальную пользу из инициатив ML. Tensorflow и Tensorflow Light от Google, Pytorch от Facebook, Core ML от Apple, Horovod от Uber, Keras и Jupyter Notebook для исследований, Open AI Gym и многие другие программы и платформы внесли огромный вклад в сокращение крутой кривой обучения для ML/AI. Они должны быть доступны для большого числа разработчиков.

3. Общие проблемы, связанные с производством и реализацией. Существуют некоторые общие проблемы, которые необходимо устранить при реализации стратегии машинного обучения.

а. Как структурировать команду? — Машинное обучение — это новая область, и опытных специалистов не хватает. Кроме того, для успешного выполнения требуется очень разнообразный набор специализированных навыков. Следовательно, следует тщательно продумать, как должны быть структурированы команды с учеными по данным, инженерами по машинному обучению, руководителями инфраструктуры. Разделение путей разработки инфраструктуры и программного обеспечения и отчетность якорю программы, который хорошо разбирается в бизнесе и технологиях, может быть правильным подходом. Непрофильные функции могут быть упакованы и переданы аутсорсинговому партнеру.

б. Как измерить успех? — для каждого проекта лучше всего определить одну метрику для отслеживания эффективности, и метрика должна иметь сопоставление с ценностью для бизнеса. Это облегчает отслеживание успеха программы.

в. Как управлять данными и моделью? Мы должны осознавать тот факт, что данные со временем меняются, и, следовательно, модели необходимо обучать, обновлять и развертывать, чтобы они соответствовали изменениям в реальных данных. Некоторые проблемы могут возникнуть из-за разрозненных источников данных, проблем безопасности и нормативных ограничений и мандатов, нескольких типов моделей (контролируемая/неконтролируемая/усиление) и различных алгоритмов (усиленный градиент, логистическая регрессия, глубокая свертка, RNN и т. д.). Некоторые технические вмешательства, которые могут помочь, включают развертывание сильного сервера CI/CD, такого как Jenkins, гибких облачных платформ (у AWS, Google и Microsoft есть отличные платформы для запуска программ машинного обучения), контроль версий с помощью Git или других инструментов управления версиями и т. д.

д. Как интерпретировать результат модели? — Некоторые модели не поддаются интерпретации человеком, и четкое понимание необходимо, чтобы избежать серьезных сбоев в работе. Владельцы моделей должны играть значительную роль и поддерживать модели в актуальном состоянии и интерпретируемом, чтобы избежать потери контекста.

е. Как предвидеть сбой? — Сбой — это константа в парадигме машинного обучения. Большое количество инициатив не приносит желаемой ценности для бизнеса. Поэтому должен быть способ снизить риск, не ограничивая инновации. Agile-доставка, AB-тестирование и т. д. должны использоваться для раннего и непрерывного отслеживания результатов.

Мы определенно находимся на восходящей траектории S-образной кривой, когда речь идет о технологиях. Технологии, как мы все видим, оказывают глубокое влияние на человеческое общество. ИМХО, вместо того, чтобы пытаться предсказать будущее, бизнес-организации должны использовать настоящее, чтобы преодолеть неопределенность этого волнующего путешествия. Это похоже на Subway Surfer, где нам нужно сохранять концентрацию, чтобы собирать монеты и избегать поездов; разница только в том, что в итоге мы попадаем на борт ракеты!