Работа в индустрии ML Research сразу после бакалавриата

Мне посчастливилось работать в RnD-лаборатории сразу после того, как я получил степень бакалавра в области электротехники в ИИТ Бомбея. Вот что я узнал за время, проведенное там. Моими областями работы были: Компьютерное зрение, GAN.

Что происходит в отраслевой RnD-лаборатории?: мы решали бизнес-задачи клиентов с помощью самых современных методов глубокого обучения. Это включает в себя чтение множества исследовательских работ, создание прототипов решений, быструю итерацию и поиск наиболее практичного решения (Proof-of-Concept). Конечной целью здесь всегда является решение бизнес-задачи, которая отличается от чисто исследовательских лабораторий, где вы можете заниматься теорией, математикой, которые не требуют использования в ближайшем будущем.

Как измеряется эффективность? Эффективность исследователя измеряется тем, какой процент годовых целей он может выполнить. Годовые цели представляют собой сочетание количественного и качественного характера. Например. Количество опубликованных исследовательских работ, количество зарегистрированных патентов, построенных доказательств концепции, созданных активов, посещенных конференций, опубликованных сообщений в блогах и так далее. Некоторые цели также поощряют изучение новых появляющихся областей машинного обучения и создание чего-то простого, используя то, что было изучено, чтобы это проложило путь в эту область для других в лаборатории. Некоторые цели также поощряют наставничество младших, проведение технических лекций и проведение сессий по чтению статей. В конце концов, мы все являемся сотрудниками, и наша работа должна быть согласована с направлениями деятельности компании. Но есть много интересных проблем, над которыми нужно работать в каждой области, и хорошие менеджеры будут вместе с вами определять годовые цели и помогать вам в их достижении.

Что мне больше всего нравилось, когда я работал в RnD:

›Крутые старшие: я был младшим научным сотрудником и мог подойти к любому старшему в лаборатории и задать сомнения. У каждого была какая-то ниша специализации, такая как резюме, НЛП, временные ряды и т. д. Я подходил с каким-то конкретным вопросом, а затем обсуждал их работу, их понимание определенных концепций, что работает, а что нет. Обычно (не всегда) люди, работающие в лабораториях, имеют докторскую степень, что автоматически делает их интересными собеседниками. Все они были умными, скромными и практичными людьми, которые могли регулировать уровень разговора в зависимости от того, с кем разговаривали.

›Широкое разнообразие формулировок задач машинного обучения: обработка изображений, компьютерное зрение, НЛП, наука о данных, рекомендательные системы. различные данные, такие как изображения, видео, 3D-модели, карты ГИС, табличные данные, временные ряды, текст и т. д. Каждый приходит со своими проблемами и требует лечения.

›Посещал конференции по машинному обучению. В свое время я посетил много конференций и видел, над чем работают другие компании, каковы их задачи по машинному обучению и что они ожидают от кандидатов, желающих работать с ними. Я пообщался с некоторыми людьми, с которыми познакомился на стендах с плакатами, и узнавал что-то новое из каждого выступления/презентации, на котором присутствовал. Я познакомился с громкими именами в области исследований машинного обучения и получил приблизительное представление о том, чего большие технологии пытаются достичь с помощью огромных данных и вычислений.

›Много свободы. Несмотря на то, что конечной целью является влияние на бизнес, у меня было много свободы для продолжения исследования, которое я считал многообещающим. Его жизнеспособность решалась на собраниях по обзору исследовательской работы, но это всегда было глубокое обсуждение плюсов и минусов. Если вам любопытно, как и мне, это лучшая часть этой работы. Я провел дни, поглощенные изучением чего-то, к чему меня тянуло.

Я изучил GAN. Когда я присоединился к ней новичком, меня побудили узнать о GAN и придумать несколько неизведанных бизнес-приложений. В течение следующих 2 месяцев я прочитал более 30 статей, связанных с GAN. В конце концов, у 2 статей были убедительные примеры использования в бизнесе; но это не главное. Мне доверили узнать что-то совершенно новое для меня и придумать идеи для исследований и бизнес-приложений. Это было лишь поверхностное понимание теории и математики архитектуры моделей, функций потерь и проблем сходимости. Но у меня появилась уверенность в том, что я могу узнать что-то новое, минимально держась за руки, ведя правильные беседы с нужными старшими и задавая правильные вопросы. В течение следующего года я ознакомился со многими популярными моделями GAN и получил достаточное представление о том, как это работает, и общих проблемах, с которыми приходится сталкиваться при обучении GAN.

›Совместная работа с авторами Paper: . Много раз, читая статью, у меня возникали некоторые теоретические сомнения. Иногда у меня были трудности с реализацией кода или я не получал ожидаемых результатов. Я начал писать письма авторам статей и доцентам. Удивительно, но многие из них отвечали и помогли мне добиться хороших результатов.

Я встретил китайского аспиранта, чью статью я пытался реализовать. Он первый и единственный человек из Китая, с которым я когда-либо разговаривал, и, несмотря на языковые и географические барьеры, у нас все получилось! Мы использовали Zoom по выходным, и он помогал мне с моими сомнениями и ошибками. После обсуждения работы мы обычно обсуждали нашу жизнь в соответствующих странах, наши фестивали и культуру, нашу карьеру, наше здоровье и благополучие во время пандемии. Я улыбаюсь, когда вспоминаю времена, когда у меня было открыто 2 вкладки в браузере: одна для перевода с английского на китайский, другая для перевода с китайского на английский. Мы заставили это работать!

›Обсуждение докладов в группе. Каждый месяц у нас было собрание, на котором все в течение минуты рассказывали об одной интересной вещи, с которой они столкнулись. У нас также были бумажные презентации время от времени. Мы также устраивали технические вечеринки в последнюю пятницу каждого месяца, где кто-то из лабораторий устраивал чаепитие и объяснял основы своей области (GAN, AR/VR, трансформеры, многорукие бандиты, блокчейн и т. д.) простыми словами. Эти обсуждения были интересными и помогли мне узнать немного по разным темам, а также помогли мне оставаться в курсе новых вещей.

›Меньше совещаний, которые нужно посещать. Время исследователей драгоценно, поэтому мне не нужно было посещать собрания, если это действительно не требовалось. Это экономит много времени и позволяет нам работать долгие часы с минимальными помехами. Предполагается, что вы выполняете возложенную на вас работу и при необходимости будете обращаться за помощью.

›Управляемый ускоренный курс машинного обучения для новичков. Я разработал учебную программу и создал ускоренный курс обучения машинному обучению для новичков из других областей программного обеспечения. Я выбирала курсовую работу, проводила сессии по разрешению сомнений, готовила задания, проводила оценку курса. Это помогло мне лучше понять основные концепции машинного обучения.

Я пытался опубликовать статью, но она была отклонена, потому что мы согласились, что она недостаточно нова, но ничего страшного, я все равно был младшим научным сотрудником.

Привычки, которые я выработал:

›Ежедневное чтение/узнавание нового:

Я знаю, над чем работают лучшие исследователи в ведущих лабораториях машинного обучения, таких как OpenAI, MetaAI, Microsoft Research, Deep Mind, IBM. Я также знаю некоторых ведущих исследователей из моей страны, которых я часто вижу на конференциях и основных докладах.

Twitter — мой основной источник популярных новостей машинного обучения, но мне пришлось отписаться от всех других тем, таких как политика, спорт, новости и т. д., чтобы получать рекомендации по ленте только для машинного обучения. Но это небольшая цена за качество контента, который я читаю.
Reddit удобен для встречи с единомышленниками: чтобы получить от них совет по поводу карьеры или обсудить конкретную теорию/сомнения в коде на некоторых форумах, или узнать об общих проблемах, с которыми сталкиваются специалисты по данным/машинному обучению в своей работе, или о том, как чтобы лучше подготовиться к собеседованию при приеме на работу или обсудить предложения о зарплате и т. д.
Medium – это первый сайт, который я открываю утром, потягивая горячий чай. Это всегда хорошее начало дня. На Medium (Towards Data Science) есть несколько действительно хороших авторов, чей контент помогает прояснить концепции машинного обучения.
Я также подписался на некоторые новостные бюллетени по машинному обучению (The Sequence, DeepLearning.AI, Louis Bouchard, The Variable, Neptune.AI), они освещают еженедельные горячие выпуски по AI. исследования, стартапы в области искусственного интеллекта и обзор того, куда мы движемся.
Есть и другие вещи, такие как видео на Youtube и плейлисты курсов, но они требуют больше времени, поэтому я не часто их посещаю.

Я провожу по крайней мере один час в день за чтением и просто случайно пролистываю; или, по крайней мере, я пытаюсь. Nerd Alert, это моя социальная сеть, лол. Честно говоря, я чувствую себя перегруженным количеством читаемого контента, который я получаю каждый день, но никогда не дочитываю его до конца. Надеюсь, в будущем я смогу расставлять приоритеты в том, что читать, и действительно это делать.

›Генеративный ИИ. Мне повезло, что я начал работать с GAN в первые дни своей жизни, у меня появилось хорошее понимание и появился некоторый практический опыт их обучения. За последние несколько месяцев Генеративный ИИ был потрясен такими релизами, как CodeX, DALLE-2, Imagen, MidJourney, Stable Diffusion. Хотя я ничего не знаю. о том, как работают эти модели, я знаю, что могу вернуться к генеративным моделям в будущем, если у меня будет возможность. Теперь генеративные модели чувствуют себя как дома.

›Поражаюсь машинному обучению в повседневной жизни: я могу узнать машинное обучение в действии, когда просматриваю социальные сети, электронную торговлю, рекомендации фильмов и рекомендации по еде. Я хочу когда-нибудь узнать все об их работе.

›Моя небольшая сеть молодых исследователей: у меня есть друзья и пожилые люди, работающие в разных областях машинного обучения. От исследователей квантов в области финансов, высокочастотных трейдеров до инженеров машинного обучения, внедряющих большие модели в производство. Аспиранты ведущих университетов работают в области компьютерного зрения, 3D-геометрии, проектирования микросхем для оборудования с ускорением на графическом процессоре, вероятностей и математики, объяснимого ИИ, этического ИИ и даже изучают мозг обезьян и детей! У нас никогда не заканчиваются темы, когда мы встречаемся.

Спасибо за чтение, и я надеюсь, что это поможет получить представление о том, что происходит в исследованиях машинного обучения, тем, кто хочет попробовать работать в RnD. Это весело!

Работа в индустрии ML Research сразу после бакалавриата

Что мне больше всего нравилось, когда я работал в RnD:

Привычки, которые я выработал:

Вопросы по теме