В этой статье рассматриваются последние тенденции в области науки о данных / машинного обучения / искусственного интеллекта и предлагаются подрайоны группам DS, на которых следует сосредоточиться.

Производство машинного обучения

Это будет наиболее важным направлением деятельности в 2018 году. Большинство предприятий проверили концепцию машинного обучения и стремятся реализовать всю ценность своих данных с помощью полнофункциональной производственной реализации алгоритмов. Ключевой технологией в этом пространстве может стать Клипер. Clipper - это современная обслуживающая система машинного обучения от Rise labs, университета Беркли, которая использует концепции распределенных вычислений для масштабирования моделей, развертывание контейнерных моделей для обработки моделей, созданных на любой платформе, а также выполняет кросс-платформенное кэширование и пакетирование для использования параллельных архитектур, таких как Графические процессоры. Наконец, Clipper может также выполнять композицию кросс-фреймворковых моделей, используя методы машинного обучения, такие как ансамбль и многорукие бандиты.

Еще одна интересная технология, связанная с выбором модели, называется autoML - по аналогии с Микеланджело из Uber. Появилось множество фреймворков с открытым исходным кодом, таких как TPot и AutoSKLearn, которые помогают в автоматическом поиске в пространстве нескольких моделей с соответствующими гиперпараметрами и выборе лучшей модели для конкретной задачи. Управление моделями, которое представляет собой способность отслеживать сотни моделей в производстве, включая родословную модели / аналитики - например, какие метрики оценивались для каждой модели, на основании каких наборов данных и результатов, по сути, весь цикл разработки модели, переобучения и обновления. и т.д. ModelDB - один из возможных вариантов в этой области.

Еще одна интересная работа в этой области исходит от MapR - работы, известной под названием Machine Learning Logistics, ключевым принципом которой является архитектура Rendezvous. Ключевые элементы архитектуры Rendezvous включают микросервисы на основе потоков и контейнеризацию, а также стиль дизайна DataOps, который упрощает использование канареек и ловушек. Decoy - это модель, которая не выполняет никаких операций с входными данными - она ​​используется для сохранения копии входных потоков. Canary - это модель, которая обеспечивает эталон или базовый уровень, с которым можно сравнивать другие модели. Архитектура Rendezvous позволяет в значительной степени отслеживать модели и измерять дрейф модели, позволяя новым моделям постепенно и плавно переходить на новый уровень.

Глубокое обучение никуда не денется

Недавно появилось несколько статей, раскрывающих ограничения глубокого обучения, включая хорошо известную статью Гэри Маркус и эту статью в KDNuggets. Гэри утверждает, что ограничения глубокого обучения возникают в первую очередь из-за наличия только конечных данных для обучения, тогда как на самом деле для идеального обобщения может потребоваться бесконечное количество данных. В статье KDNuggets показано, как сети глубокого обучения, обученные для классификации, можно легко обмануть с помощью возмущений во входных изображениях, а также случайных (бессмысленных) изображений, которые генерируют ошибочные классификации с высокой степенью достоверности.

Однако, как показала команда Goolge Deep Mind, которая использовала глубокое обучение в сочетании с обучением с подкреплением для игровой системы Atari или AlphaGo, игровой игровой системы Go, сочетающей глубокое обучение с поиском по дереву Монте-Карло, глубокое обучение весьма полезно и может быть в сочетании с другими известными методами машинного обучения для получения отличных результатов.

Одной из распространенных проблем при использовании глубокого обучения является настройка гиперпараметров. Недавний подход показал, как подход к обучению с подкреплением может составлять определенные формы повторяющихся сетей, которые могут значительно превосходить существующие системы.

В Другой недавней статье было предложено, как глубокое обучение можно использовать для предсказания квантово-механических свойств малых молекул - оно показало, что глубокое обучение (особая форма глубокого обучения, известная как нейронные сети с передачей сообщений) может применяться к структурированным графам данных. и инвариантен к изоморфизму графов.

Неявные VS явные сигналы

Люди врут, особенно в опросах. Итак, традиционный метод понимания поведения пользователей с помощью Survey, похоже, терпит неудачу. Это было очевидно в Netflix, когда они столкнулись с классическими фильмами, которые были очень высоко оценены пользователями, но на самом деле их не смотрели. Это также очевидно при поиске в Google и стало предметом недавнего выступления Strata Data. Исследователь Google отметил, что в опросе выпускников Мэриленда только 2% заявили, что их CGPA ниже 2,5, в то время как на самом деле 11% имеют CGPA менее 2,5. Аналогичным образом, в другом опросе 40% инженеров в организации заявили, что они входят в 5% лучших инженеров в компании. Поиск в Google - это цифровая сыворотка правды, в которой люди более правдивы, чем в любых опросах или на других платформах. Это также говорит нам о том, что мы должны обращать внимание на неявные сигналы (например, то, что люди на самом деле смотрят на Netflix), а не полагаться на явную обратную связь через опросы, чтобы понять поведение потребителей. Это также очевидно в некоторых рекомендательных системах, разработанных Pinterest, что задокументировано в этом программном выступлении; они использовали неявные сигналы о том, как пользователи взаимодействуют с пинами (сохранять пины, воспроизводить пины других пользователей, искать пины, а также рекомендации, которые пользователям не нравятся или игнорируются) и могли рекомендовать соответствующий персонализированный контент для пользователей на основе механизма рекомендаций на основе графов.

Интерпретируемость модели

Интерпретируемость или объяснимость модели - это способность алгоритма машинного обучения объяснять, почему он делает прогноз определенным образом. Возможно, из-за ряда случаев мошенничества, замеченных в обучающих данных, система может сделать вывод, что это мошенническая транзакция. Интерпретируемость моделей становится важной, поскольку все больше и больше моделей машинного обучения запускается в производство в нескольких областях, таких как финансы, страхование, розничная торговля и даже здравоохранение. Среди новых технологий в этом пространстве - Skater и Lime.

AI за пределами глубокого обучения

Libratus, еще одна недавняя игровая система, объединила равновесие по Нэшу и теорию игр для решения игр с несовершенной информацией, таких как покер. с приложениями для динамического конкурентного ценообразования и оптимизации портфеля продуктов. Три основных компонента Libratus включают:

  1. Абстрактор игры - который вычисляет абстракцию игры, которая меньше по размеру и которую легче решить, а также вычисляет теоретико-игровые стратегии для этой абстракции.
  2. Второй модуль создает детальную абстракцию вспомогательной игры (состояние игры после пары раундов) и решает ее, используя технику, известную как решение вложенных вспомогательных игр.
  3. Третий модуль - это модуль самоулучшения, который создает стратегию проекта для игры, заполняет части абстракции проекта и вычисляет теоретико-игровые подходы для этих ветвей.

Обучение с подкреплением - еще один важный инструмент в арсенале специалистов по данным. Сейчас он сочетается с глубоким обучением для разработки сетей глубокого обучения с подкреплением, таких как сеть от Google.

Конфиденциальность в эпоху машинного обучения.

В этом отношении большое значение имеют законы о конфиденциальности данных и соответствующие законы о защите данных, включая Общий регламент по защите данных (GDPR). Например, GDPR имеет правила, согласно которым согласие пользователя необходимо даже для сбора личных данных. Пользователи также имеют право задавать вопросы о собираемых данных, а также изменять данные или удалять их или возражать против использования личных данных для таргетинга, если они того пожелают. Обработчики данных также имеют определенные обязательства в соответствии с GDPR. GDPR повлияет на дизайн всех информационных продуктов в 2018 году.

Важно не только защитить конвейеры данных и инфраструктуру, но также защитить бизнес-аналитику и аналитику. Именно здесь аналитика, сохраняющая конфиденциальность, становится актуальной и приобретет большое значение в 2018 году. Технология, имеющая отношение к защите бизнес-аналитики, - это недавняя совместная работа Uber и Rise Labs из университета Беркли, которая гарантирует дифференцированную конфиденциальность для SQL-запросов на основе того, что известная как эластичная чувствительность, которая сочетает в себе механизм локальной чувствительности с общим равносоединением.

Аналитика с сохранением конфиденциальности, особенно для моделей глубокого обучения, достигается с помощью метода, называемого федеративным обучением, который популяризируется Google. Он основан на централизованном сервере параметров, на котором хранятся все параметры, необходимые для обучения. Каждый телефон может загрузить параметры, использовать локальные данные для улучшения модели, составить небольшое сообщение об обновлении и отправить его обратно на параметрический сервер. Сервер собирает обновления с нескольких телефонов и централизованно обновляет параметры модели. Интересная часть федеративного обучения заключается в том, что все данные являются локальными, а обучение - глобальным. Каждый телефон обновляет модель, используя свои собственные локальные данные и выполняя вычисления локально, отделяя ML от хранения данных в облаке. Это используется в Gboard (Google Keyboard) на Andriod.

Вышеупомянутое обучение единой модели с использованием федеративного обучения имеет такие проблемы, как высокие накладные расходы на связь, отставание и отказоустойчивость, а также статистические проблемы подгонки модели к данным. Это решается недавней работой в этой области от CMU с использованием объединенного ядра многозадачного обучения, которое решает статистические проблемы за счет использования нескольких моделей и их одновременного обновления, в то время как системные проблемы решаются MOCHA, распределенной моделью оптимизации.