Саммит LDV Vision ‘17: 10 вопросов исследователю @ Google

Первоначально опубликовано на сайте kaptur.co 20 апреля 2017 г.

Автоматическая организация личных фотографий, мониторинг посевов, медицинская диагностика, вождение автомобиля, мониторинг безопасности — компьютерное зрение всегда и везде. Неудивительно, поскольку мы, люди, используем зрение в качестве основного инструмента для понимания окружающего мира. Для такой поисковой системы, как Google, вполне логично быть одним из лидеров исследований. В преддверии ее основного доклада на предстоящем саммите LDV Vision Summit 2017 мы поговорили с научным сотрудником Google Тали Декель, чтобы узнать больше:

Немного о вас. Каков ваш опыт?
Я научный сотрудник Google в Кембридже, Массачусетс, работаю над разработкой алгоритмов для приложений в области компьютерного зрения и компьютерной графики. Оглядываясь назад, можно сказать, что это был долгий и полезный путь! Мое первое знакомство с компьютерами произошло довольно поздно, в 18 лет. Когда я начал получать степень бакалавра электротехники в Тель-Авивском университете в Израиле, я почти ничего не знал о том, во что ввязываюсь. К счастью, я быстро обнаружил в себе страсть к науке и исследованиям. Затем я перешел на прямой путь к MSc. (когда я увлекся компьютерным зрением) и тут же сразу к PhD. Мне посчастливилось быть окруженным замечательными людьми, которые помогли мне развить свои навыки и стать независимым исследователем. Я переехал в США 2,5 года назад, чтобы получить докторскую степень в Массачусетском технологическом институте у профессора Билла Фримена. Поначалу я был ошеломлен темпом, который происходит в Массачусетском технологическом институте, который «заставлял» меня быть на высоте. Затем, около года назад, я присоединился к группе профессора Фримена в Google.

Почему я выбрал компьютерное зрение?
Я был очарован приложениями и огромным разрывом между возможностями системы человеческого зрения и возможностями компьютера. Как мы можем построить алгоритмы, которые принимают массивы чисел в качестве входных данных и заставляют компьютер видеть? Это волшебно.

Каковы ваши обязанности как научного сотрудника Google?
Мы — группа из десяти человек (управляемая проф. Биллом Фриманом), и в целом наша миссия — развивать компьютерные технологии. видение и графика, которая полезна миру и Google. В Google подход должен быть очень практическим, и в обязанности входит формулировка исследовательских идей, кодирование, тестирование, сотрудничество и общение с другими группами в Google, а также написание академических статей.

Какова основная движущая сила вашего исследования? что вы в первую очередь пытаетесь решить?
Способы захвата цифровых изображений резко изменились с появлением смартфонов и платформ для обмена. Это ставит так много новых проблем в нашей области, и это послужило мотивом для некоторых моих ранних работ по секвенированию фотографий, сделанных толпой людей. В общем, меня очень интересует разработка алгоритмов, которые обрабатывают большие коллекции изображений (например, все фотографии определенного человека, загруженные в Сеть). У нас так много данных, но нам все еще не хватает инструментов для их организации, визуализации и анализа.

Вы всегда начинаете с практического применения вашего исследования или оно появляется позже?
Это зависит от того, как вы определяете слово "практическое". В основном имеется в виду приложение, которое помогает мотивировать и сфокусировать исследование, но часто существует большой разрыв между тем, что требуется для академической статьи, и реальным продуктом.

Кажется, вся ваша последовательность статей связана с искажением/деформацией изображений.
Да, это направление работы (которое является частью моего постдок) связано с обнаружением и визуальным изменением небольшие вариации цифровых изображений. Когда мы наблюдаем структуры и объекты невооруженным глазом, мы склонны их идеализировать. Например, здания могут казаться совершенно прямыми, а повторяющиеся структуры, такие как кукурузные зерна, могут казаться почти идентичными.

В реальности такого безупречного поведения практически не бывает. Мы разработали методы, которые берут одно изображение, автоматически обнаруживают небольшие дефекты/вариации и создают новое изображение, в котором эти вариации либо сглажены, либо преувеличены. Уменьшение несовершенств позволяет нам идеализировать/украшать изображения и может использоваться в качестве графического инструмента для создания более визуально приятных изображений. В качестве альтернативы, увеличение пространственной неравномерности позволяет нам выявить полезную и неожиданную информацию, которую трудно визуально воспринять невооруженным глазом. Эта работа является примером того, как компьютерное зрение может работать даже лучше, чем зрительная система человека.

Какая область исследований компьютерного зрения, помимо вашей собственной, кажется вам наиболее интересной?
Глубокое обучение и использование нейронных сетей для приложений компьютерного зрения и компьютерной графики изменили правила игры в последние пару лет. Многие задачи, которые несколько лет назад были невозможны, сегодня работают невероятно хорошо. Например, система распознавания лиц Google имеет потрясающую производительность, которая работает лучше, чем у людей!

Я очень рад заняться глубоким обучением и разработать алгоритмы, сочетающие классические методы и устоявшиеся знания в области компьютерного зрения с этими мощными инструментами для улучшения наших визуальных возможностей и, надеюсь, получения новых.

Сложно ли быть женщиной в этой сфере?
Я не думаю, что быть женщиной для меня сложно, а скорее совмещать карьеру с другой моей работой на полную ставку — быть мама двух молодых, энергичных мальчиков; это может быть так же сложно для пап. Мне повезло, что у меня есть замечательный партнер, который помогает мне заставить это работать. Женщины определенно по-прежнему составляют меньшинство в моей области, и я хотел бы видеть больше женщин в своей рабочей среде. Это так, и я надеюсь, что со временем он будет улучшаться.

Чего вы больше всего ждете от саммита LDV Vision?
Я рассматриваю этот саммит как прекрасную возможность пообщаться с ведущими деятелями науки, промышленности, искусства и СМИ и узнать о самые интересные вещи, над которыми работают эти профессионалы. Я часто нахожу такие мероприятия очень освежающими и вдохновляющими, и я с нетерпением жду их.

Каким вы видите компьютерное зрение через 20 лет?
Я думаю, что то, как мы взаимодействуем с компьютерами и другими цифровыми устройствами, в целом сильно изменится через 20 лет и будет сильно на основе компьютерного зрения. Компьютерное зрение и искусственный интеллект станут основными технологиями для беспилотных автомобилей, виртуальной реальности и робототехники, которые будут широко использоваться через 20 лет. Основной задачей будет разработка алгоритмов компьютерного зрения, которые можно обобщать и интерпретировать. С постоянно растущим объемом данных и вычислительной мощностью это становится все более и более сложной задачей.

=›Чтобы узнать больше, присоединяйтесь к Тали, когда она выйдет на сцену для своего основного доклада во время предстоящего саммита LDV Vision Summit 2017.

[Kaptur гордится своим медиа-спонсором саммита LDV Vision.]

Пол Мельчер — основатель Kaptur. Он предприниматель, советник, консультант с большим опытом работы в области лицензирования, авторского права, продаж, маркетинга и технологий с более чем 20-летним опытом развития всемирно известных фотокомпаний с двумя успешными выходами. Журнал American Photo назвал его одним из «100 самых влиятельных людей в фотографии».

Твиттер Фейсбук Линкедин

Саммит LDV Vision ‘17: 10 вопросов исследователю @ Google

Вопросы по теме