Основные моменты NeurIPS 2018 (часть 1)

Темы в этом посте включают разговорный ИИ; автономное вождение; ML для здоровья и творчества; справедливость и предвзятость в ML,…

На конференции Системы обработки нейронной информации (NeurIPS) 2018, проходившей в Монреале, Канада, был проведен ряд работ - от машинного обучения для творчества и здоровья до усовершенствований систем автономного вождения. В этом посте мы расскажем о некоторых повторяющихся темах конференции, имея в виду, что темы были тщательно отобраны из большого количества отличных и разнообразных презентаций. Обратите внимание, что этот обзор охватывает только материалы приглашенных докладов, основной конференции и семинаров. Мы надеемся, что после этого чтения читатели получат интуитивное понимание некоторых из наиболее важных моментов конференции, к которым они смогут продолжить, используя предоставленные ссылки. В частности, мы сосредоточимся на следующих темах:

Разговорный AI
Машинное обучение для творчества и здоровья
Предвзятость и справедливость в машинном обучении
Автономное вождение
Успехи в НЛП
Разные темы
Разнообразие в искусственном интеллекте

Разговорный ИИ

Разговорный искусственный интеллект (Разговорный ИИ) - это область исследований, которая занимается нейронными подходами, используемыми для построения диалоговых систем, таких как ориентированные на задачи диалоговые системы и ответы на вопросы. Разговорный ИИ - важная область исследований, поскольку он охватывает большинство суб-дисциплин обработки естественного языка (НЛП). Общей мыслью и разговором среди участников и докладчиков на конференции было использование визуальной информации для помощи в разработке более умных и контекстно-зависимых диалоговых систем ИИ или НЛП в целом. Общее мнение заключается в том, что разговорного агента может быть недостаточно для естественного разговора только по тексту. Есть надежда, что другие методы, такие как изображения, могут быть полезны для извлечения важной информации, чтобы помочь системам понять контекст и участвовать в более естественных разговорах.

На том же семинаре Рухи Сарикая (директор по прикладным наукам в Amazon) обсудила механизм устранения трений при взаимодействии на естественном языке с использованием контекстной информации. Он утверждает, что контекстная информация может быть определена фактами об определенном событии или сущности, которые связаны с такими чувствами, как видеть, слышать, чувствовать и т. Д. Эта возможность была недавно встроена в разговорный агент Amazon, Alexa. Благодаря этим новым возможностям Alexa теперь имеет возможность естественным образом взаимодействовать в беседе, при этом пользователю не нужно ссылаться на нее по имени каждый раз, когда они хотят следить за предыдущим разговором, диалогом или вопросом. Одной из других интересных функций, представленных, была Контекстное самообучение и самовосстановление: при различных сценариях разговора существует механизм перезаписи запросов, который помогает диалоговому агенту лучше понять человеческие запросы. Например, если человек спросил Алекса, играй в Будду, то механизм перезаписи запроса преобразует оператор в машиночитаемую инструкцию, такую как play boo'd up . Ключевыми используемыми моделями были модели Seq2Seq DNN и поглощающие цепи Маркова. Вы можете узнать больше об этих достижениях прямо из Alexa Blogs.

И-Чиа Ван рассказал о том, как Uber встраивает социальные возможности в своих разговорных агентов и как это повлияло на уровень вовлеченности их водителей. Они обнаружили, что более естественное общение влияет на то, как часто водители взаимодействуют со своими диалоговыми ботами. Одна из интересных частей исследования заключалась в том, как перенос языкового стиля использовался для генерации ответов с помощью социального языка. Подробнее об их работе читайте здесь.

Чтобы найти больше интересных постеров и презентаций из 2-го разговорного семинара по ИИ, вы можете посетить веб-сайт здесь.

Машинное обучение для творчества и здоровья

Одним из самых интересных мест для проведения конференции стал семинар Машинное обучение для творчества и дизайна из-за невероятного количества представленных творческих работ. Был Piano Genie, интеллектуальный музыкальный интерфейс, который позволяет импровизировать на фортепиано с помощью интуитивно понятного контроллера. Холли Грим представила на CycleGAN, используемом для создания искусства посредством влияния атрибутов художественной композиции (через знания предметной области). DaDA - это генеративный подход для преобразования эскизов в живопись в китайском стиле Шаньшуй. Пабло Самуэль Кастро представил усовершенствованный метод генерации лирики, основанный на сочетании изученных лирических структур и словарного запаса. Тарин Клануват и другие представили подход глубокого обучения к пониманию классической японской литературы (они даже представили набор данных для японской литературы под названием Kuzushiji-MNIST). С другими работами, представленными на семинаре, вы можете ознакомиться в их онлайн-галерее.

На семинаре Машинное обучение для здоровья были представлены работы, направленные на использование методов глубокого обучения и машинного обучения для решения проблем в области здравоохранения. Доктор Фэй Фэй и другие представили свою работу по определению степени тяжести депрессии с использованием мультимодальной информации. Насколько нам известно, нет другой работы, в которой бы сочетались черты лица и голоса для определения степени депрессии у людей. Большинство предыдущих работ по обнаружению депрессии было выполнено с использованием отдельных модальностей, таких как текст или аудио. Это важный шаг к более унифицированной модели и созданию реальных приложений для сектора здравоохранения. И эта работа также помогает подчеркнуть важность комбинирования модальностей для создания более выразительных и точных систем принятия решений и машинного обучения.

В этом году наблюдался рост методов глубокого обучения, используемых для радиологии и других задач, связанных с медицинской визуализацией. Это важная область исследований, поскольку медицинская визуализация связана с другими задачами и проблемами по сравнению с традиционными задачами компьютерного зрения. В качестве примера был представлен интересный плакат, в котором использовались сверточные графовые сети для противодействия целям лучевой терапии. Эта работа находится на стадии отправки, но вы можете увидеть плакат ниже, и, если вам интересно, вы также можете напрямую связаться с авторами.

В другой работе был представлен умный способ использования механизма внимания для прогнозирования гестационного возраста мозга плода. (См. Плакат ниже)

С полным списком постеров и докладов, представленных на воркшопе, вы можете ознакомиться здесь.

Предвзятость и справедливость в ML

В лейтмотиве Latinx in AI Омар Флорез обсуждал, может ли алгоритм AI быть предвзятым. Его предварительные результаты показывают, что алгоритмы машинного обучения не могут быть предвзятыми. Он также утверждает, что это обычно вводится в разные части конвейера ИИ, все из которых связаны с принятием решений людьми, такими как сбор и маркировка данных. Дело в том, что алгоритмы искусственного интеллекта почти никогда не бывают предвзятыми, что также разъясняется и подробно рассматривается в докладе Повышение справедливости в системах машинного обучения Ханной Уоллах (исследователь Microsoft). Ханна далее замечает, что когда мы используем слово алгоритм для обозначения систем ИИ, СМИ, как правило, неправильно используют его. Поэтому она задает вопрос, следует ли нам рассказывать о наших системах, используя другую лексику. Она предложила нам начать использовать такие слова, как модели, для обозначения этих систем ИИ.

Рич Каруана рассказал о рисках, связанных с использованием моделей черного ящика в здравоохранении и уголовном правосудии. Дэвид Шпигельхальтер в своем приглашенном выступлении также рассказал о преимуществах статистической науки при построении алгоритмов машинного обучения и о том, как она может способствовать прозрачности, объяснению и проверке. Вот хороший эпизод, когда он больше обсуждает, что значит быть заслуживающим доверия и заслуживающим доверия. Еще один замечательный приглашенный доклад был произнесен Эдвардом Фельтеном на тему машинного обучения и государственной политики. Вся суть беседы заключалась в том, чтобы побудить исследователей машинного обучения быть более активными и участвовать в государственной политике и других общественных делах и обсуждениях. Джон Кляйнберг глубоко разбирается в том, что значит создавать классификаторы машинного обучения, чтобы они были справедливыми по отношению к разным группам. Роэль Доббе выступил с докладом о важности улучшения показателей справедливости и об идее внедрения диагностических инструментов для выявления ограничений, ценности и проблем интеграции алгоритмов в реальных условиях.

Если вы хотите узнать больше о других выступлениях на тему предвзятости и справедливости в ML, перейдите на веб-страницу Семинар по этическим, социальным и управленческим вопросам в AI.

Автономное вождение

Автономное вождение стало одним из ведущих приложений для достижения прогресса в области искусственного интеллекта. Таким образом, эта тема сыграла центральную роль на конференции с двумя специальными семинарами. Первый, MLAuto Workshop, был организован Pony.AI и был посвящен последним достижениям и исследовательским возможностям в области автономного вождения. Второй, «Семинары Машинное обучение для интеллектуальных транспортных систем (MLITS)», имел гораздо более широкий охват и был сосредоточен на решении проблем, возникающих в наших будущих транспортных системах. Помимо автономных транспортных средств, он также охватывал инфраструктуры связи между транспортными средствами (V2V) и между транспортными средствами (V2X), а также интеллектуальные дорожные инфраструктуры, такие как интеллектуальные светофоры. У меня была возможность присутствовать на последнем, и ниже я делюсь своими основными моментами сессии.

Хотя в этой области был достигнут значительный прогресс, по-прежнему существует множество серьезных проблем, связанных с достижением полной автономии. Например, как сделать восприятие устойчивым и точным, чтобы обеспечить безопасное вождение? Как мы узнаем правила, которые вооружают автомобили адаптивными человеческими навыками ведения переговоров при слиянии, обгоне или уступке? Как мы определяем, когда система достаточно безопасна для развертывания на реальных дорогах?

Семинар предоставил возможность узнать, как игроки отрасли подходят к решению некоторых из этих проблем. Ниже приводится краткое изложение наиболее интересных докладов и документов, обсуждавшихся во время семинара:

Альфредо Канцани (Нью-Йоркский университет) открыл сессию, представив свою работу на тему Прогнозирование и планирование в условиях неопределенности. Он обсудил важность точных предсказаний окружающей среды, стохастических по своей природе, на этапе планирования пути на автономных транспортных средствах.
Имен Чжан (Pony.AI) обсудил проблемы обобщения, особенно с учетом того, что большинство компаний, занимающихся автономным вождением, тратят свои усилия на сбор данных и тестирование только в 1 или 2 городах. Она также рассказала о некоторых интересных проблемах, с которыми их команда столкнулась при тестировании системы Pony.AI в разных странах.
Натаниэль Фэйрфилд (Waymo) вкратце ознакомился с новейшим подходом Waymo к самоуправлению с помощью имитационного обучения. Его команда создала ChaufferNet, глубокую рекуррентную нейронную сеть (RNN), обученную определять траекторию движения, наблюдая за реальными демонстрациями экспертов. В своем исследовании они обнаружили, что стандартного поведенческого клонирования (метод имитационного обучения) недостаточно для обработки сложных сценариев вождения (например: светофор, знаки остановки, объезд припаркованной машины), несмотря на использование 30 миллионов собранных примеров. Например, они часто наблюдали, что (смоделированный) автомобиль может столкнуться с другими транспортными средствами или застрять. Чтобы решить эту проблему, они улучшили характеристики модели с помощью имитации отсева, подвергая учащегося дополнительному поведению, например, вождению по бездорожью и столкновениям. Вместо того, чтобы просто имитировать все данные, они увеличили потерю имитации дополнительными потерями, которые штрафовали за нежелательные события и поощряли прогресс, что привело к устойчивости изученной модели.

Джон Леонард (MIT & TRI) представил свою работу по системе Toyota Guardian. Задача Guardian - создать высокоавтоматизированную систему вождения, которая может служить защитной сеткой для водителя-человека, помогая предотвратить аварию. Он также представил недавний доклад своей команды в TRI под названием SuperDepth: Самоконтролируемая сверхрешающая оценка глубины монокуляра.

Дорса Сэдиг (Стэнфорд) представила очень интересное исследование, в котором она рассмотрела проблемы транспортных сетей со смешанной автономией (где автономные транспортные средства разделяют дорогу с машинами, управляемыми людьми), используя мощность автономных транспортных средств для положительного влияния на заторы. Она представила концепцию альтруистической автономии, в которой автономные транспортные средства стимулируются выбирать менее эффективные маршруты для уменьшения заторов.

Семинар завершился большой панелью, посвященной ключевым вызовам и подходам искусственного интеллекта для автономного вождения . Некоторые из наиболее распространенных обсуждаемых проблем касались того, как справляться с неопределенностью, а также обобщения на невидимые ситуации и среды, особенно потому, что компании, занимающиеся автономными транспортными средствами, стремятся выйти на международный уровень.

Альфредо Канциани (Нью-Йоркский университет) предложил использовать скрытые переменные для включения своего рода внутреннего переключателя, который позволит вам настраивать модель на различные аспекты среды. Марко Павоне (Стэнфорд) подчеркнул различия в поведении и нормах вождения от страны к стране и заявил, что компаниям необходимо приложить усилия для сбора местных данных по каждому городу, который они планируют развернуть.
Точно так же Сара Тарик (Zoox) упомянула, что один из подходов, которые они используют в Zoox, - это сбор данных по одному городу, а затем виртуальное воссоздание их в симуляторе. Таким образом, они могут протестировать систему без необходимости развертывания в каждом городе.
Екатерина Таралова, также из Zoox, добавила, что действительно важно не проехать миллионы миль, а проехать правильные мили, что делает моделирование критически важным для виртуального воспроизведения менее распространенных ситуаций. Мы можем предположить, что распределение вероятностей возможных сценариев, которые могут возникнуть во время вождения, следует гауссовскому распределению с очень длинным хвостом с бесконечным количеством необычных ситуаций.
Наконец, профессор Курт Койцер (Калифорнийский университет в Беркли) предупредил о риске позволить рынку беспилотных автомобилей развиваться самостоятельно при небольшом государственном вмешательстве, поскольку это может привести к сохранению неравенство, когда компании размещают свои автомобили в областях, которые более экономически оправданы для эксплуатации беспилотных автомобилей, оставляя места, где сложнее или с меньшей плотностью населения, не учитываются / маргинализируются.

См. Здесь для всех работ, принятых на MLITS Workshop 2018.

Достижения в НЛП

На конференции были представлены различные интересные работы по обработке естественного языка (NLP). На первом сеансе НЛП Инь и Шэнь обсудили теоретически мотивированную структуру для понимания и оптимизации размерности встраивания слов. Другая работа была нацелена на изучение кросс-модального согласования между речью и пространствами встраивания текста без учителя. Они утверждают, что их метод полезен в случаях, когда имеется мало параллельных аудиотекстовых данных для обучения современных систем контролируемого автоматического распознавания речи (ASR). Другие интересные работы и постеры НЛП, представленные на конференции, перечислены ниже:

Научитесь рассуждать с помощью тензорных продуктов третьего порядка - стремится заменить скрытое состояние RNN тензорным представлением продукта для достижения SOTA в наборе данных с ответами на вопросы bAbi, предлагая при этом возможности рассуждений.
Реляционные рекуррентные нейронные сети - исследователи DeepMind предлагают новый модуль памяти под названием Ядро реляционной памяти, который может выполнять сложные реляционные рассуждения, позволяя воспоминаниям взаимодействовать. Они тестируют задачи языкового моделирования и оценки программ.
Навигация с графическими представлениями для быстрого и масштабируемого декодирования моделей нейронного языка - в этой работе предлагается Fast Graph Decoder, цель которого - ускорить процесс декодирования моделей нейронного языка на уровне softmax, который особенно полезно в случаях, когда требуется обработать большой словарный запас.
На пути к созданию текста с помощью нейронных контуров, извлеченных из состязательной системы - метод, который генерирует текст (в виде контуров) с использованием комбинации авторегрессионных и состязательных моделей с использованием предварительно обученных представлений предложений (полученных с помощью декодера предложений).
Middle-Out Decoder - метод, который использует механизм самовнимания для генерации последовательностей из середины, а не обычную стратегию слева направо. Авторы могут улучшить качество субтитров, а также лучше контролировать процесс генерации декодера.
Перенести обучение от проверки динамика на синтез речи с несколькими динамиками - генерировать речевой звук из текста в голосе множества разных динамиков, даже из динамиков, которых не было во время обучения.
Турбообучение для CaptionBot и DrawingBot - показывает, как совместно и эффективно обучать генератор преобразования изображения в текст и генератор текста в изображение. Интуиция заключается в том, что, обучая обе модели вместе, возможно, они дадут друг другу обратную связь. Одним из хороших результатов этого метода является то, что он утверждает, что позволяет полу-контролируемое обучение, предоставляя псевдо-метки для немаркированных примеров.
Частично контролируемые подписи к изображениям - получение самых современных результатов при создании подписей к объектам изображения (набор данных COCO) путем изучения новых визуальных концепций на основе наборов данных для обнаружения объектов и помеченных изображений. Это могло бы быть более применимо в реальных настройках и сняло ограничение домена.
Ответчик в сознании спрашивающего: теоретико-информационный подход к целевому визуальному диалогу - эта работа предлагает Ответчик в сознании вопрошающего теоретико-информационный алгоритм для выполнения эффективного целенаправленного визуального диалога путем обучения спрашивающего узнать вероятностным способом намерения отвечающего. Метод заимствует идеи из теории разума.
Изучение структур условных графов для интерпретируемых визуальных ответов на вопросы - этот метод использует свертки графов для изучения конкретных представлений графов по входным изображениям. Идея состоит в том, что семантические и пространственные отношения могут использоваться для эффективного захвата взаимодействий с конкретными вопросами из изображений.
TIFTI: Структура для извлечения интервалов приема лекарств из продольных клинических заметок - эта работа направлена на использование основанного на правилах подхода для автоматического извлечения режимов приема лекарств от рака полости рта из клинических заметок.

Разное

Фернанда Виегас (Google) и Мартин Ваттенберг (Google) представили руководство по передовым методам визуализации в машинном обучении.
Приглашенный доклад под названием Машинное обучение встречает: чего ожидать и как справиться, представленный Эдвардом У. Фелтеном, утверждает, что для того, чтобы иметь более совершенные законы, регулирующие использование нами технологий, важно вести конструктивный диалог с политиками, чтобы это могло бы иметь более широкое положительное влияние на поле, правительство и общество.
Одной из наиболее интересных и забавных презентаций на конференции стал доклад профессора Джейсона Эйснера о том, что мы можем узнать из методов глубокого обучения в лингвистике, и как эти знания могут быть использованы для улучшения традиционных методов, как он это сделал в своей работе. популярная и новаторская работа по bi-LSTM Конечные преобразователи состояния.

На семинаре Визуально обоснованное взаимодействие и язык Анжелики Лазаридуо (научный сотрудник DeepMind Research) представила свою работу по использованию виртуальной среды в качестве основы для изучения языка. Некоторые из вопросов, на которые были даны ответы в презентации, заключались в том, влияет ли модальность ввода на композиционность возникающих языков в агентах, и почему мы должны даже заботиться о композиционности и как ее измерять.
Одним из важных выводов конференции было следующее: большинство инноваций, которые мы видим сегодня, например, в области глубокого обучения, - это всего лишь незначительные улучшения или умные применения старых алгоритмов. Чтобы продвинуться в этой области, важно также быть противником и не всегда стремиться превзойти современные результаты (SOTA) только потому, что мы можем. Также важно, что мы стремимся получить более глубокое понимание явлений и проблем, над которыми вы работаете.
По моим наблюдениям, одной из наименее обсуждаемых тем на всей конференции была причинно-следственная связь и ее роль в создании более эффективных и точных систем искусственного интеллекта. Не совсем понятно, как можно связать причинно-следственную связь с глубоким обучением, но по мере того, как мы продолжаем создавать больше автономных систем, которые взаимодействуют с непредсказуемой средой, будет критически важно отойти от общих контролируемых методов, которые полагаются только на сильные ассоциации, обнаруженные в данных.
Закари Липтон продолжает выражать озабоченность некоторыми тревожными тенденциями в машинном обучении. Беспокойство Липтона в основном вызывает тема погони за доской и другие тревожные тенденции, такие как использование антропоморфного языка для объяснения возможностей систем искусственного интеллекта. Если вы прочитали здесь полностью, вы, возможно, заметили, что это проблемная тема в ML, которая повысила осведомленность сообщества о том, чего не следует делать при публикации и общении об алгоритмах ML.
Хэл Фам и его коллеги представили свою работу над Изучение надежных совместных представлений для многомодального анализа настроений, в которой они совместно обучают классификатор настроений, используя мультимодальности, которые полагались только на языковую модальность во время тестирования. .

Разнообразие ИИ

Мы оставили эту категорию напоследок не потому, что она была наименее важной, а из-за того, насколько она важна для прогресса ИИ в будущем. В этом году NeurIPS провел широкий спектр семинаров, в которых приняли участие различные недостаточно представленные группы по ИИ, чтобы увеличить разнообразие. Каждая группа провела свои собственные семинары, которые продемонстрировали невероятный потенциал талантов и исследования, существующие в этих сообществах. Чтобы обобщить все великие и удивительные работы, которые были представлены участниками этих семинаров, нам потребуется нечто большее, чем сообщение в блоге, поэтому мы решили включить ссылки на некоторые из этих семинаров ниже и осветить некоторые из этих работ в будущем (читатели могут доступ к полным программам ниже):

Другие полезные ресурсы

Особая благодарность Игнасио Лопес-Франкос за его значительный вклад в эту статью (особенно в части автономного вождения). Эта статья не была бы возможна без него. Мы уже работаем над второй частью NeurIPS 2018 Highlights, которая будет включать более подробные обзоры других семинаров, таких как глубокое обучение с подкреплением, байесовское глубокое обучение и др. другие. Если у вас есть советы, предложения или рекомендации, обратитесь к Элвису Саравиа или Игнасио Лопес-Франкос. Спасибо за чтение и желаю вам приятных праздников!