Интернет произвел революцию благодаря книжному магазину Amazon и поисковым системам du jour. Google положил начало парадигме хранения данных Amazon Web Services, открыв эру 16-значной свободы вычислений, когда ежедневно стартует 1000 стартапов.

В настоящее время вычислительная техника доведена до предела благодаря решениям, генерируемым с использованием искусственного интеллекта (ИИ). Google Search и Google Ads начали использовать Hadoop, реализованный Yahoo, для массового использования. Apache Spark сделал перемещение данных более приятным с точки зрения задержки. Потоковые плееры, такие как Kafka, Flink и Druid от Confluent, сделали туманные вычисления реальностью. Telco теперь больше, чем просто владелец туннеля, и может создавать различные предложения для трафика в северном и южном направлениях. Болота данных и озера больших данных больше не беспокоятся о задержках поступления, а устанавливают ограничения в качестве соглашений об уровне обслуживания. Они уступили место A/B-тестированию всего, что можно вообразить, переместив нас из мира, ориентированного на данные, в мир, ориентированный на модели.

Тот же ИИ (обучение с подкреплением), который победил Ли Седоля, — это автоматизированное машинное обучение (AutoML), которое самостоятельно изучило и создало промежуточный язык из перевода человеческого языка A на человеческий язык B. Он был демократизирован и предлагается из класса библиотек, поддерживающих ASIC (TPU, GTX 2080, D-Wave) от ряда компаний мирового класса (Tensorflow, Kaldi, PyTorch, MXNet, CNTK, cuDNN, spaCy и CoreML от Google, Facebook, Amazon, Microsoft, Nvidia , Salesforce, Apple и др.).

С таким изобилием доступного демократизированного ИИ оставаться предприятием, ориентированным на данные, без моделей, буквально оставляет деньги на столе. Раньше считалось, что выбрасывать какие-либо данные было немыслимо, потому что можно было найти золотую пулю, добыв эти данные в будущие десятилетия. Но теперь, благодаря онлайн-обучению, модели передачи и seq2seq могут помочь почти мгновенно найти смысл в данных.

Ни у одной фирмы нет монополии на разнообразие доступных алгоритмов, библиотек и фреймворков, и почти безрассудно думать, что можно обуздать этого зверя своими силами. Специалисты агентства со знанием предметной области делают разницу между победителями и проигравшими.

Миф 1. Создавайте все своими силами

Ваша родословная может быть вашей силой или слабостью в зависимости от того, как вы ее используете. Очень часто технолога привлекает новая блестящая игрушка на блоке, в то время как выписывающий итоговые чеки остается чесать в затылке, когда осознает потерянную долларовую стоимость того, что строится. Продолжительность дебатов о капитальных затратах и ​​операционных расходах часто является индикатором аналитического паралича. Сообразительный инженер видит ценность в разделении крупных проектов на понятные вехи, связанные с использованием в бизнесе. Это также заставляет организации пересматривать свою внутреннюю матрицу навыков и сопоставлять ее с требованиями, а также наращивать усилия с первоклассными поставщиками и партнерами на всех этапах. Когда расширение штата основано на партнерских отношениях, вопрос «создать или купить» перестает быть спорным вопросом.

Миф 2. Все данные должны быть использованы перед созданием первой модели

Классическая проблема курицы и яйца проявляется, когда истории блокируются в спринтах. Проверенным временем решением является buildmodular; строить маленькими шагами. Обработка данных для моделирования обычно сводится к тому небольшому, значимому, игольчатому набору данных из стога сена больших данных. Использование гибких групп, которые выполняют параллельную работу, — это один из тактик решения синдрома вечной блокировки данных.

Миф 3. Обучение в производственной среде сопряжено с риском

Строительство для наблюдения только начинает закрепляться в инженерных операциях. Разработчики веб-приложений быстро поняли, что наблюдаемость должна быть свойством таких приложений, как Parse или Tango. То же самое относится и к выпуску моделей в производство. В реальности модель отрабатывается только в продакшене

Онлайн-обучение на производстве является нормой для нынешнего поколения быстрорастущих компаний, таких как Airbnb, Lyft и Uber; выведение веб-тестирования Amazon и Google A/B на новый уровень в эпоху машинного обучения. Это подразумевает встраивание наблюдаемости, интерпретируемости и воспроизводимости в модели как первоклассные функции.

Миф 4. Интерпретируемость не определена

Такие проекты, как LIME, — это первые шаги в понимании того, почему нейронная сеть работает так, как она работает.

Поскольку приложения машинного обучения все больше попадают в сферу повседневного регулирования, интерпретируемость является первоклассной функцией для построения моделей. Отладка TensorfFlow — еще один шаг в правильном направлении.

Миф 5. Это денежная яма

Примирить несбыточную мечту об ИИ с реальностью измеримой отдачи лучше всего можно с помощью старого доброго гибкого и бережливого разделения проектов на измеримые единицы. Цель, которая идет рука об руку с разбиением на фрагменты, — это систематическое уничтожение проектов, которые не кажутся многообещающими. Распространенными контрпримерами являются роботы Boston Dynamics и автономное вождение. Муншотам уже достаточно отрубленных рук и ног, чтобы вернуть их в нужное русло. Достичь этого можно, методично измеряя прогресс и переустанавливая цели. Именно поэтому поставщики и партнеры в этих путешествиях играют ключевую роль. Они не только обеспечивают разнообразие идей и решений, но также несут экономическое бремя результатов. Когда вы связываете проект с бизнес-результатами и выбираете партнеров на основе четко определенных критериев и процессов, проблема денежной ямы определенно ставится под сомнение, если не в постель.

О НАС

John Snow Labs Inc. — компания DataOps, ускоряющая прогресс в аналитике и науке о данных, взяв на себя головную боль управления данными и платформами. Треть команды имеет докторскую степень. или степень доктора медицины, а 75 процентов имеют как минимум степень магистра в нескольких дисциплинах, включая исследование данных, разработку данных, науку о данных, а также безопасность и соответствие требованиям. Мы — корпорация, базирующаяся в Делавэре, работающая как глобальная виртуальная команда, расположенная в 15 странах мира. Мы верим в то, что можем быть отличными партнерами, делать наших клиентов невероятно успешными и использовать филантропию данных, чтобы сделать мир лучше.

Узнайте больше о нас в Twitter, LinkedIn или в нашем блоге. Свяжитесь с нами, чтобы получить помощь в вашем следующем передовом путешествии.

Ссылки

Тензорфлоу™ (2018). Отладчик TensorFlow, [онлайн] Доступно по адресу: https://www.tensorflow.org/programmers_guide/debugger [Доступ 9 апреля 2018 г.]

Тулио Рибейро, М., Сингх, С., Гестрин К. (2016). Введение в локальные интерпретируемые модельно-независимые объяснения (LIME), O'Reilly Media, Inc., [онлайн] Доступно по адресу: https://www.oreilly.com/learning/introduction-to- local-interpretable-model-agnostic-explanations-lime [Доступ 9 апреля 2018 г.]

Первоначально опубликовано на сайте www.johnsnowlabs.com 10 апреля 2018 г.