Основные моменты и тенденции Amazon re: MARS и ICML 2019 (с видео)

Автор: Майкл Тремир (руководитель отдела машинного обучения, Макс Келсен)

Последние несколько недель я был в Калифорнии и успел побывать на двух крупных конференциях по машинному обучению - Amazon re: MARS и ICML 2019. За это время я посетил огромное количество лекций и встретился с практиками и исследователями машинного обучения со всего мира.

В этом посте я поделюсь некоторыми распространенными тенденциями, которые я заметил на двух конференциях, некоторыми из моих любимых выступлений и статей (с видео) и некоторыми личными мыслями об опыте австралийского инженера по машинному обучению.

Во-первых, немного о конференциях. Amazon re: MARS - это трехдневная конференция с участием докладчиков из Amazon и индустрии. Конференция посвящена новейшим технологиям в области машинного обучения, автоматизации, робототехники и космоса. re: MARS уделяет особое внимание применению этих технологий и рассматривает то, что компании создают прямо сейчас и в ближайшем будущем.

С другой стороны, Международная конференция по машинному обучению (ICML) - одна из трех ведущих академических конференций по машинному обучению. Он собрал почти 10 000 исследователей и практиков машинного обучения со всего мира в Лонг-Бич, где в течение недели проводились занятия по машинному обучению, обучающие программы и семинары.

Здесь, в Max Kelsen, мы стремимся предоставлять нашим клиентам высокопроизводительные, но проверенные технологии машинного обучения, поэтому я искал доклады и документы, относящиеся к предстоящим проектам клиентов. Это оказалось немного сложнее, чем ожидалось, поскольку re: MARS ощущается более актуальным для руководителей и руководителей предприятий, желающих ознакомиться с продуктами и услугами, которые предлагают другие компании (и лишь несколько разговоров касаются сорняков технической реализации).

С другой стороны, ICML представляет значительную ценность для исследователей и практиков, работающих на переднем крае машинного обучения (со временем для серьезных экспериментов). Большинство результатов исследований в ICML еще не совсем готовы для применения в клиентских проектах или наших собственных прикладных исследованиях, но было огромное количество, которое я убрал.

Любимые выступления и доклады

Несмотря на то, что в течение двух недель это была информационная перегрузка, для меня был выделен ряд выступлений и документов. Ниже приведены некоторые фавориты.

Любимая статья ICML

Социальное влияние как внутренняя мотивация многоагентного обучения с глубоким подкреплением

Команда из MIT Media Lab и Deepmind создала многоагентную RL-модель, в которой агенты могли общаться, и была вознаграждена за успешное влияние на других агентов в частично наблюдаемой среде.

Они обнаружили, что агенты научились сообщать о своем собственном поведении, позволяя другим агентам знать, была ли еда доступна в окружающей среде, но вне поля зрения, и агенты лучше справлялись с коммуникацией, чем без нее. Поистине увлекательно наблюдать, как мы черпаем вдохновение у органических «агентов» и видим, как они успешно переходят на виртуальных.

Вот доклад Наташи Жак о социальном и мультиагентном обучении, в том числе обзор статьи, указанной выше.

Технология Amazon Go "Just Walk Out"

В re: MARS доктор Джерард Медиони из Amazon познакомил нас с технологической архитектурой продуктовых магазинов Amazon без кассира, которая позволяет их покупателям просто уходить, а приобретенные ими товары автоматически переносятся на их учетную запись Amazon.

Эта проблема очень сложная и была описана Medioni как «Computer Vision Complete», требующая решения полдюжины проблем исключительно с помощью компьютерного зрения и распознавания объектов для создания технологии.

Соучастник Райан Гросс создал отличную запись в блоге, подробно описывающую сеанс, включая видео - посмотрите здесь.

Многозадачное обучение в пустыне (от Tesla)

Технология компьютерного зрения Tesla является мировым классом, и хотя Доклад Андрея Карпати углубляется в архитектуру модели, используемую каждым автомобилем Tesla, более интересным было то, как Tesla приходилось иметь дело с различными командами Tesla, распределяющими ресурсы при обучении многопользовательской среде. модели задач.

Вместо использования отдельных моделей для задач компьютерного зрения используется одна модель, которая разделяется на разные головы для разных задач CV, при этом вся модель (и все задачи) обучаются вместе. Поскольку разные задачи часто зависят от результатов других, и обучение происходит вместе, все потери от разных задач соперничают за ресурсы и мощность модели, и командам Tesla приходилось избегать быстрых уловок, которые повышают производительность одной задачи (например, удвоение масштабов потери вашей собственной задачи) в ущерб всем остальным.

Этот доклад касается как управления командой машинного обучения, так и моделей, которые они создают, и дает представление о проблемах работы с такими сложными и оптимизированными моделями.

Исследование на Amazon по обнаружению эмоций речи

Хотя большинство разговоров на re: MARS оставались на довольно высоком уровне, этот разговор об обнаружении речевых эмоций был посвящен технической реализации некоторых моделей мультимодальной последовательности, которые строит одна из исследовательских групп Amazon.

В первой половине доклада рассматриваются проблемы обнаружения эмоций в целом, но начиная с 35 минут и далее Виктор Розгич углубляется в несколько различных архитектур моделей, которые сочетают в себе формы звуковых волн и транскрипции речи для достижения высочайшего качества выполнения задачи. .

Слияние моделей мультимодального, студенческого преподавателя и состязательного автокодировщика в этом исследовании было для меня наиболее технически интересным выступлением на re: MARS, и оно будет интересно даже тем, кто работает в других дисциплинах машинного обучения.

AutoVC: передача стиля голоса с нулевым снимком с потерей только автокодировщика

Эта статья показывает, как передача стиля голоса может быть выполнена полностью неконтролируемым образом, используя только автокодеры. Два обучающих автоэнкодера извлекают кодировки записываемого контента (что сказано) и выступающих (как это было сказано). Затем для преобразования кодирование контента одной записи может быть объединено с кодировкой говорящего другой, чтобы создать новую выходную запись исходного контента в голосе нового говорящего.

Интересная часть этой статьи заключается в том, что это может быть выполнено без присмотра, и, хотя производительность невидимых динамиков не так высока, как у ранее замеченных динамиков, уровень производительности этой модели очень впечатляет из-за ее простоты.

Посмотрите 5 минут разговора здесь (переходите к 55:51).

Еще несколько интересных докладов и статей

Тенденции исследований

Обучение с подкреплением применяется к реальным проблемам

Обучение с подкреплением (RL) существует уже некоторое время, но большинство исследований было сосредоточено не на реальных приложениях, а на RL в играх / тренажерном зале и на решении многих проблем с обучением моделей RL.

В этом году около 20% бумажных сессий были полностью посвящены RL, при этом еще больше статей RL было показано в ряде других сессий (особенно тех, которые связаны с бандитами, многозадачным обучением и обучением с несколькими выстрелами). В ICML я заметил значительное увеличение количества статей (в основном от крупных технологических компаний), демонстрирующих использование обучения с подкреплением в дикой природе по таким бизнес-проблемам, как системы прогнозирования и рекомендаций.

В ближайшие месяцы я постараюсь начать тестирование этих методов (и некоторых фреймворков с открытым исходным кодом) на реальных бизнес-задачах наших клиентов. В ближайшие годы очевидно, что стандартный подход машинного обучения, заключающийся в сборе больших объемов помеченных обучающих данных и создании моделей с обучением с учителем, перейдет к использованию модели обучения с подкреплением (предварительно обученной для аналогичной задачи) с использованием имитации / нулевого обучения. Подходы к обучению по принципу «выстрел / несколько кадров», позволяющие довести его до хорошего уровня при выполнении вашей собственной задачи, а затем позволить ему потерять возможность работать с данными в реальном времени.

Этот подход не только эффективен для обработки данных, но и позволяет легко интегрировать непрерывное обучение в модель с течением времени. Мы даже видим выпуск облачных сервисов на основе RL (например, Azure Personalizer для рекомендательных систем), так что ожидайте огромный бум производственных систем на основе RL в ближайшие пару лет.

Роботизированное схватывание становится все ближе

Как на re: MARS, так и на ICML, был проведен ряд выступлений, демонстрирующих стремительный рост, достигнутый роботизированным захватом за последние годы. Это была чрезвычайно сложная проблема, которая за последнее десятилетие прогрессировала медленнее, чем многие ожидали, но с использованием сквозных методов глубокого обучения, достижений в области метаобучения и улучшенного компьютерного зрения и обучения репрезентации, теперь есть компании достигают и превосходят человеческий уровень точности и эффективности в роботизированном захвате.

Во время беседы у камина на re: MARS Джефф Безос особо отметил, что, по его мнению, проблема схватывания будет решена через десять лет, и Эндрю Нг и Джон Платт повторили это мнение на панельной дискуссии ICML. Эффективный и точный захват открывает двери, в первую очередь, для автоматизации цепочки поставок и производства, но окажет огромное влияние на ряд отраслей, где люди в настоящее время составляют основу физических и повторяющихся рабочих процессов.

Исследования объяснимости, неопределенности, интерпретируемости и причинно-следственной связи моделей продолжают расти

В ICML было проведено множество исследований в области объяснимости моделей и причинно-следственной связи, что является отличной новостью для тех, кто работает в отраслях, требующих большей прозрачности при принятии решений в системах машинного обучения. Это большая часть работы, которую мы делаем с нашими клиентами, и она будет иметь решающее значение в ближайшие годы, поскольку ожидания регулирующих органов в отношении объяснимости систем машинного обучения растут.

Вдобавок к этому байесовские методы занимали видное место: около десятка статей сравнивали эффективность различных методов аппроксимации неопределенности для правильной оценки неопределенности модели.

Один ключевой вывод: исключение метода Монте-Карло не является полной заменой настоящей байесовской нейронной сети, и большинство методов страдают недостатками по сравнению с реальными методами (см. этот документ ICML).

Заключительные мысли

re: MARS и ICML были первыми крупными международными конференциями, на которых я присутствовал, и возможность встретиться и пообщаться с ведущими исследователями и практиками со всего мира была фантастической. В частности, на стендовых докладах меня поразило то, как исследователи обсуждают свою работу, когда они обсуждают свои работы. Для человека, который не учился в докторантуре, естественно чувствовать, что разрыв между вами и многими из этих исследователей (по крайней мере, в их основной области) велик, но на самом деле единственная разница - это время и энергия.

Меня как австралийца также поразило количество высококачественных исследований на конференции. Хотя некоторые австралийцы проделывают большую работу на мировой арене, небольшой размер рынка и, как следствие, отсутствие хорошо финансируемых исследовательских организаций в Австралии мешают местным исследователям решать сложные проблемы, требующие больших ресурсов (и наборов данных), и «утечка мозгов» в зарубежные компании сильно ощущается здесь, у себя дома.

В целом, однако, самым большим выводом было вдохновение и мотивация. Участие в обоих мероприятиях и наблюдение за энергией конференций (особенно во время стендовых сессий ICML) заставили меня почувствовать волнение и мотивацию для выполнения большой работы, а также заставили меня с оптимизмом смотреть на проблемы, которые решаются людьми во всем мире.

Участие в этих мероприятиях заправило мой танк и дало толчок моему желанию продолжать упорно работать в предстоящие годы и использовать большую часть этого новаторского исследования в нашей работе над клиентами и исследовательскими проектами в ближайшем будущем.