Мелисса Ранфельдт - выпускница Insight, а в настоящее время работает инженером по машинному обучению в Salesforce, где она интегрирует новые фреймворки машинного и глубокого обучения в платформу Einstein. Она получила докторскую степень в области вычислительной нейробиологии в Чикагском университете и была докторантом в UCSF, где занималась исследованием кодирования информации в неокортексе млекопитающих.

Будущее с искусственным интеллектом

Вы подходите к своей машине, и дверь со свистом открывается. Голос приглашает вас по имени сесть, и когда дверь за вами мягко закрывается, вы говорите: «Отведите меня в офис… в центр города». Когда машина плавно увозит вас прочь, вы говорите «позвоните в Сяоцянь», и начинается неприглядный разговор с деловым партнером с английского на мандаринский.

Когда-то это видение будущего казалось очень далеким. Однако все технологии, лежащие в основе этого видения, вполне реальны. Почему этот полноценный опыт еще не стал реальностью?

Что движет этими технологиями и каковы последние шаги, чтобы донести это целостное видение до потребителя?

Первая конференция AI Frontiers в Кремниевой долине (январь 2017 г.) была создана для решения оставшихся проблем и планирования способов их решения. Лидеры отрасли из Google, Amazon, Tesla, Baidu, Microsoft, Intel, Facebook, Bosch и других пришли обсудить текущее состояние дел в коммерческом ИИ. Выступления на конференции были разделены на категории в зависимости от приложений (например, автономные транспортные средства, помощники с поддержкой речи, обработка естественного языка, компьютерное зрение, Интернет вещей (IoT) и структуры глубокого обучения), но наиболее поразительными были горизонтальные темы, которые объединили их: глубокое обучение как решение, разработка функций против сквозного обучения, объединение датчиков и машинное восприятие, фреймворки глубокого обучения и, конечно же, будущее.

Ниже приводится разбивка этих горизонтальных тем и уроков, извлеченных из отрасли.

Глубокое обучение как решение

Одна тема не обсуждалась: в непредвиденном будущем глубокое обучение будет доминировать в развитии коммерческого ИИ. Почему? Короткий ответ заключается в том, что он невероятно хорошо работает для самых разных приложений. Как отметил Джефф Дин (Google) во время своей основной презентации, глубокие нейронные сети теперь могут превосходить людей в классификации изображений, а глубокое обучение (DL) используется почти во всех продуктах Google. В мире растущих объемов неструктурированных данных DL предоставляет гибкую структуру для преобразования этой информации в желаемый результат или цель. Как описал Чарльз Фан (Cheetah Mobile):

«В 70% случаев глубокое обучение решает 100% проблемы».

Разработка функций или сквозное обучение

Одно из самых больших обещаний глубокого обучения (DL) заключается в том, что опыт в предметной области и созданные вручную правила больше не требуются для создания действительно хороших прогнозных или генеративных моделей. Этот момент был подчеркнут в презентации Li Deng (Microsoft) об эволюции технологии разговорного диалога ([чат] бота). Языковые модели 90-х и начала 2000-х годов были основаны на человеческих представлениях о структуре и значении языка. Речь сначала была переведена в текст. Созданные вручную правила использовались для экстраполяции значения этого текста, определения ответа и синтеза ответа. Подход DL, напротив, не требует интерпретируемой человеком внутренней модели языковой структуры и значения. Это означает, что инженеру не нужна докторская степень по лингвистике, чтобы построить мощный алгоритм для преобразования голосовой команды в компьютеризированную задачу.

Означает ли это, что традиционное машинное обучение и парадигмы человеческого языка больше не играют роли в разговорных машинных технологиях?

Не совсем. Nikko Ström (Amazon) описал сочетание машинного обучения, акустического моделирования (классификация фонем) и DL в алгоритмах обнаружения и синтеза речи Alexa. Адам Коутс (Baidu Research), однако, подчеркнул, что трудно масштабировать нашу собственную смекалку. Его исследовательская группа применяет глубокие нейронные сети для сквозной речи. перевод, и он подчеркнул важность того, что один и тот же алгоритм может использоваться для многих разных языков. Хотя этот подход, названный Deep Speech, требует невероятных объемов данных и вычислительной энергии, Coates / Baidu воплощают его в коммерческую реальность.

Возможность перехода от необработанных данных к желаемой задаче с помощью одного алгоритма или сквозного обучения является огромным преимуществом, предлагаемым DL. Означает ли это, что разработка функций ушла в прошлое?

Не обязательно. Даже с помощью алгоритма Deep Speech необработанный аудиосигнал преобразуется в спектрограмму, которая представляет информацию в виде частотных интервалов в интервале времени. Преимущество этого заключается в том, что он предоставляет дискретные функции в качестве входных данных в нейронную сеть, а стоимость заключается в том, что необходимо принимать решения о том, как разбивать сигнал как по частоте, так и по времени. Этот процесс преобразования звукового сигнала в частотные компоненты на самом деле является тем, что делает для нас улитка, сенсорный орган в наших ушах: он анализирует звуки на отдельные частотные полосы и передает эту информацию нижестоящим нейронам. В некотором смысле это можно рассматривать как статический метод извлечения признаков из сигнала или как проектирование признаков.

Может ли искусственная нейронная сеть преобразовать аудиосигнал в его частотные компоненты (т.е., вычислить спектрограмму)? Да, но зачем заставлять сеть изучать функции, которые, как вы уже знаете, необходимы для решения этой задачи? Предварительно обрабатывая необработанные данные, вы уменьшаете требуемую глубину нейронной сети и, следовательно, количество подходящих параметров и объем данных, необходимых для обучения. С другой стороны, вы рискуете выбросить ценную информацию. Вот почему степень, в которой вы предварительно обрабатываете или трансформируете данные, передаваемые в сеть DL, все еще остается решением, которое должны принять исследователи ИИ, и это нетривиальное решение.

Эти соображения актуальны не только для технологий разговорного диалога, но и для автономных транспортных средств, Интернета вещей (IoT) и компьютерного зрения. Хотя шаги по преобразованию звуковых и, в некоторой степени, 2D-визуальных данных являются общепринятыми, существует множество других типов датчиков и данных, для которых нет очевидных преобразований предварительной обработки. Нет никакого органического органа обработки данных, такого как улитка или сетчатка, который мог бы имитировать, например, ввод GPS.

Слияние сенсоров и машинное восприятие

Наш мир полон фотонов, волн звукового давления и движущихся объектов. Как люди, мы обрабатываем эти входные данные с точностью до миллисекунды и ориентируемся в своем направлении и поведении для достижения постоянно меняющейся цели. С 64-лучевым лазером, 4 радарами, 1 камерой и GPS автономное транспортное средство, как объяснил Джунли Гу (Тесла), сталкивается с аналогичной проблемой. Автомобиль собирает эти аналоговые данные, оцифровывает их и должен быстро принимать решения с учетом целей и условий, которые могут постоянно меняться. Для этого информацию от всех этих различных датчиков необходимо объединить с разными разрешениями, временными шкалами и модальностями и преобразовать в инструкции по направлению, скорости и торможению.

Хотя DL позволил добиться значительного прогресса в семантической сегментации сцены, выводе трехмерной глубины и обучении с подкреплением, он делает это в основном за счет раздельных вычислений для разных типов датчиков. Слияние датчиков, или комбинирование различных сенсорных данных, все еще является незрелым для технологии автономных транспортных средств. Mohawk Shas (Bosch) описал аналогичную потребность в инфраструктуре для объединения источников для технологии IoT. Будет ли эта проблема решена путем дальнейшего применения принципов неврологии (биологии)? будет ли жестко запрограммированная логика играть роль? или у нас будет совершенно новое поле с новым именем? Только будущее имеет ответы на эти вопросы, и, по словам Гу:

«Тот, кто решит техническую проблему [слияния сенсоров], получит влияние».

Способность отображать несколько внешних входов на связный внутренний сигнал имеет другое название: восприятие. Решение этой задачи - именно то, на что Джей Ягник (Google Research) планирует потратить следующие 3–4 года. Это включает разработку структур для кросс-модальных (например, аудиовизуальных) сигналов, понимания сцены и активного (а не пассивного) восприятия. С ограничениями технологии машинного восприятия также сталкиваются Лю Рен и команда Bosch, занимающаяся человеко-машинным взаимодействием (HMI), поскольку они разрабатывают сенсорно-ориентированную дополненную реальность (AR) для своих носимых устройств. Гэри Брадски из OpenCV обрисовал в общих чертах усилия в области машинного восприятия со своей новой компанией Arraiy.com. В отличие от AR, IoT и беспилотных автомобилей, новая команда Брадски занимается разработкой искусственного интеллекта, чтобы помочь людям в создании творческого контента. Поскольку все эти группы разрабатывают свои собственные цифровые коры для различных приложений, возникает следующий вопрос:

Каким образом эти воспринимающие организмы будут взаимодействовать? Будут ли они взаимодействовать, и если да, потребуется ли для этого высокоскоростной Интернет? По крайней мере, для автономных транспортных средств, Цзюньли Гу говорит нам, что в конечном итоге они будут разговаривать друг с другом.

Рамки глубокого обучения

Несмотря на то, что достижения в области распределенных и параллельных вычислений позволили быстро разрабатывать коммерческие приложения DL, все еще существует острая потребность в более быстрых, дешевых, масштабируемых и переносимых решениях. В этой быстро меняющейся области с ограниченным числом экспертов, быстрое создание прототипов и экспериментирование с архитектурами DL в среде программирования пользователя также является важным аспектом; принятие имеет решающее значение. Появилось несколько структур DL с открытым исходным кодом, которые распараллеливают как можно больше процессов и абстрагируются от деталей распределенного градиентного спуска. Rajat Monga (TensorFlow, Google), Yangqing Jia (Caffe, Facebook), Alex Smola (MxNet, Amazon) и Soumith Chintala (Torch, Facebook) - все пришли, чтобы представить свои фреймворки, подчеркнув особенности такие как переносимость (TensorFlow), быстрое прототипирование (Torch) и многоязычная поддержка (MxNet). Несмотря на то, что пыль еще не решена, какой фреймворк будет предпочтительнее, поставщики ресурсов облачных вычислений могут многое выиграть. В то время как большинство компаний, стремящихся создать свои приложения DL, должны учитывать, насколько хорошо эти фреймворки масштабируются в облаке, некоторые также должны учитывать, насколько легко разместить свои модели, обученные в облаке, на удаленных устройствах (т.е. переносимость) .

Обучение глубоких нейронных сетей может занять недели на одном ядре ЦП, поэтому графические процессоры стали настолько важными для DL. Однако после обучения логический вывод (т.е. прогноз) с этими моделями может быть выполнен на удаленном устройстве без Интернета или тяжелого оборудования. Это та точка, где наши часто роскошные (глубокие, широкие, дорогие в вычислительном отношении) модели DL, как объяснил Янцин Цзя (Facebook), должны быть пересмотрены. Ключевым компонентом здесь является использование энергии (батареи); размер сети, устройство (CPU, GPU, TPU, FPGA) и даже используемые структуры данных - все это влияет на жизнеспособность реализации на устройстве. Для Hai Tao (Vion Tech.), Который внедряет ИИ в камеры, на выбор работы с TensorFlow повлияла их поддержка 8-битных целых чисел. В то время как Vion Technologies использует DL для встроенных систем технического зрения, таких как приложения для видеонаблюдения и трафика, разработка более энергоэффективных структур и оборудования для DL будет иметь первостепенное значение для использования DL в автономных транспортных средствах, IoT и носимых устройствах. Однако Тао с оптимизмом смотрит в ближайшее будущее, заявляя:

«Я давно мечтала иметь игрушку, которая могла [осмотреться] и сказать:« Привет, папа! [поворачивает головы] Привет, мамочка! [поворачивает голову] Привет, детка. Что для этого нужно? Глубокое обучение за полватта… и это произойдет ».

Будущее

В то время как автономные транспортные средства и машинное восприятие все еще находятся в стадии становления, существует множество вариантов использования существующей технологии DL, которые созрели для реализации. По данным« Джеймса Маника (McKinsey), около 60% профессий состоят из видов деятельности, которые на 30% можно автоматизировать, и чуть менее 5% занятий полностью автоматизируются. Влияние этой автоматизации на общество выходит за рамки данной статьи, но с точки зрения инженерии и коммерции это означает, что предстоит еще много работы.

Несмотря на то, что DL допускает меньшую ручную разработку функций и разработку специализированных алгоритмов, чем традиционное машинное обучение (ML), выполнение все еще далеко от plug-and-play. Необходимо принять решения о структуре сети и алгоритмах оптимизации, а также провести эксперименты по настройке гиперпараметров, и все это требует специальных знаний в области DL. Кроме того, чтобы запустить эти алгоритмы в производство, необходимо спроектировать новые системные инфраструктуры и часто интегрировать их в существующие платформы, что далеко не является тривиальной задачей. Чарльз Фан (Cheetah Mobile) сказал, что эта реальность меняет желанные навыки инженеров, делая востребованными опыт нейронных сетей, математические знания и талант параллельных вычислений. Хотя определенно существует озабоченность по поводу смещения рабочих мест «классически подготовленных» компьютерных специалистов, это открывает возможность для ученых-докторов наук и других специалистов с количественным образованием конкурировать на этом новом рынке. По словам Фана, более мелкие компании также могут быть в состоянии конкурировать, поскольку он утверждает, что основная конкурентоспособность компаний смещается в сторону уникальных данных, а не алгоритмов.

Среди избранных групп, которые могут позволить себе и привлечь опыт глубокого обучения, есть несколько горячих областей, в которых ведутся активные исследования: трансферное обучение, генеративные модели, обучение с подкреплением и более детерминированное понимание архитектуры нейронной сети и гиперпараметров. Для всех этих областей влияние их зрелости будет заключаться в сокращении объема данных, вычислительной энергии, времени и опыта, необходимых для вывода продуктов DL на рынок. И это повлечет за собой больше ИИ повсюду.

Состав участников конференции 2017 года и слайды большинства докладчиков доступны по адресу https://www.2017.aifrontiers.com/, а билеты на предстоящую конференцию 2018 года, 5–8 ноября, по-прежнему доступны по адресу www.aifrontiers.com .

Хотите изучать прикладной искусственный интеллект у ведущих специалистов Кремниевой долины или Нью-Йорка? Узнайте больше о программе Искусственный интеллект.