Самая устойчивая стратегия — следовать своему любопытству

Авторский прожектор

Самая устойчивая стратегия — следовать своему любопытству

Джулия Турк рассказывает о своей карьере в области обработки естественного языка и будущем мультимодального машинного обучения.

В серии «В центре внимания авторов» редакторы TDS беседуют с членами нашего сообщества о своей карьере в науке о данных, своих работах и источниках вдохновения. Сегодня мы рады поделиться нашим разговором с Юлией Турк.

Джулия – инженер-программист и исследователь в области обработки естественного языка. Особый интерес у нее вызывают трансферное обучение и мультимодальные модели. Недавно она покинула Google, чтобы основать собственную компанию в сфере генеративного искусственного интеллекта. Когда она не за клавиатурой, вы можете найти ее прогуливающейся по Нью-Йорку со своим золотистым ретривером Джули.

Что впервые привлекло вас в области обработки естественного языка?

До колледжа я одинаково интересовался языками и наукой. В то время я думал, что это неразрешимая дихотомия и что мне нужно сделать трудный выбор между ними. Я решил заниматься информатикой в колледже и начал примиряться с мыслью, что язык не будет важной частью моей будущей карьеры. Однако лампочка загорелась, когда я искал тему для своей диссертации в колледже и нашел проектное предложение по анализу настроений в твитах.

Сейчас это звучит клише, потому что с тех пор анализ настроений был забит до смерти. Но в то время эта тема объединяла несколько элементов с растущим потенциалом: глубокое обучение, социальные сети как неиспользованный источник данных и обработка естественного языка. В аспирантуре я изучал машинный перевод (в частности, мы изучали, должны ли рекуррентные нейронные сети быть двунаправленными); Я помню, как был очарован идеей проецирования языка в векторное семантическое пространство и всеми его философскими последствиями, такими как значение значения. Мне казалось, что я нашел свое место на стыке информатики, языка и философии, от которых я изначально отказался.

Как изменился ваш подход к НЛП с течением времени?

За время моей карьеры самым значительным событием на данный момент было появление трансферного обучения — повторного использования большой языковой модели общего назначения, такой как BERT или GPT-3, для решения практически любой языковой задачи. Мое внимание сместилось с методов, специфичных для конкретной задачи (например, Следует ли нам использовать двунаправленную RNN для машинного перевода?), на более широкое исследование трансферного обучения: Как мы можем улучшить базовые модели и, таким образом, принести пользу всем? Задачи НЛП сразу?

В частности, в последние несколько лет я изучал способы улучшения трансформеров, строительного блока для трансферного обучения: как сделать их более эффективными с точки зрения вычислений, как улучшить их многоязычные способности и как предотвратить их «галлюцинации» (т. е. создание правдоподобно звучащей лжи).

Исходя из вашего собственного карьерного пути, можете ли вы поделиться советом с начинающими специалистами по машинному обучению о типах проектов, на которых им следует сосредоточиться?

Я думаю, что машинное обучение развивается слишком быстро, чтобы быть стратегическим в отношении конкретных областей или проектов, которыми вы занимаетесь. Самая устойчивая стратегия — следовать своему любопытству и углубляться во все, что вызывает у вас интерес, будь то выходящее из моды (например, встраивание word2vec) или самая блестящая новая игрушка (например, модели преобразования текста в изображение).

Креативность начинается, когда вы действительно усваиваете концепцию или технологию, можете подвергнуть их сомнению, улучшить или использовать в новом контексте. Для меня самый высокий ROI — это погружение прямо в код, который является истинной истиной, невосприимчивой к недостаткам литературы по машинному обучению (приукрашиваниям, преувеличениям и вынужденным сравнениям с человеческим разумом).

Помню, мне было трудно понять Трансформеры, пока я не посмотрел на код и не понял, что за претенциозной терминологией (например, многоголовое самовнимание) скрываются просто какие-то матричные умножения, а это то, что на самом деле делают все модели. сводиться к. Я прошел путь от ошеломленного, казалось бы, непонятного исследования до того, как меня попросили снять учебник по Transformers для официального канала TensorFlow на YouTube.

Что вдохновило вас на публикации по этим темам для более широкой аудитории и как вы выбираете темы?

Участвуя в группах по чтению в Google, я с большим удовлетворением представлял математические исследовательские работы в максимально простых терминах, избавляясь от академической запутанности и добираясь до основного сообщения. Я часто получал очень обнадеживающие отзывы от своих коллег и понял, что если такого рода переосмысление принесет пользу экспертам в этой области, то оно окажет еще большее влияние на более широкую и менее специализированную аудиторию.

Что касается выбора темы, я всегда пишу о темах, которые тесно связаны с моей текущей работой, поскольку написание текстов помогает мне получить больше ясности для моих собственных проектов.

Забегая вперед, какие изменения вы надеетесь увидеть в своей области в ближайшие год или два?

Я твердо верю, что будущее машинного обучения мультимодально. Трансферное обучение имеет централизованную обработку естественного языка и компьютерное зрение. В настоящее время невозможно работать в любой из этих двух областей, не начав с предварительно обученной модели общего назначения.

Кроме того, масштаб одномодальных моделей (только текст, только изображение) приближается к потолку данных, доступных в Интернете. Вполне естественно, что следующая великая унификация объединяет несколько модальностей: текст, изображение, непрерывные данные датчиков и т. д. Первые признаки уже здесь: CLIP уже объединяет текст и изображение в единое общее семантическое пространство и поддерживает такие приложения, как DALL·E 2. , с огромным влиянием на реальный мир. Эта тенденция, скорее всего, продолжится, что позволит создавать всесторонних агентов, способных ориентироваться в окружающем нас мире во всей его сложности.

Чтобы узнать больше о работе Юлии и быть в курсе ее последних статей, следите за ней здесь, в Medium, в Twitter и в LinkedIn. Вот несколько выдающихся постов, чтобы оценить разностороннюю работу Джулии над TDS:

Как запустить стабильный диффузионный сервер на Google Cloud Platform (GCP) (сентябрь 2022 г., 10 минут)
Создание подсказок для моделей преобразования текста в изображение (июль 2022 г., 6 минут)
Нерешенные проблемы в наборах данных для понимания естественного языка (август 2020 г., 7 минут)
Переключатель-трансформер (январь 2021 г., 6 минут)
Почему GPT не говорит вам правду (май 2022 г., 6 минут)

Чувствуете вдохновение, чтобы поделиться частью своего собственного письма с широкой аудиторией? "Мы хотели бы услышать от вас".

Вопросы и ответы были слегка отредактированы для увеличения объема и ясности.

Самая устойчивая стратегия — следовать своему любопытству

Авторский прожектор