Я стажировался в RStudio, а затем стал ассистентом инструктора на семинаре по прикладному машинному обучению в rstudio::conf. Я также кратко рассказал о своей летней работе над Data Science for Software Engineers. Вот мой отчет о поездке, вдохновленный Эми Ко.

День 1: Конференц-связь во время аутизма

Наконец-то я начинаю понимать, почему конференции — это так весело, а также что делать, чтобы получать от них удовольствие. Я включил Сенсорно-дружественное руководство по конференциям, которое я сделал для организаторов конференций; Карл Хоу взял на себя бремя распространения этой информации не только в rstudio::conf, и я чувствовал себя очень желанным гостем.

Несмотря ни на что, люди потянутся за рукопожатием. Это социальный и профессиональный обычай, и я это понимаю. По мере того, как мне все больше и больше становится комфортно с моими потребностями, и я знаю, что достойна удовлетворения этих потребностей, я просто говорю: «Обычно я не пожимаю руки. Приятно познакомиться, я Йим!» На самом деле большую часть времени он служит хорошим ледоколом. Иногда я делаю это навязчиво, когда люди притягивают меня своей сильной энергией рукопожатия. Затем я объясняю им, как я могу чувствовать их вены и как я действительно привержен этому рукопожатию, чтобы они лучше его оценили. Обычно это проходит довольно хорошо, если я еще и смеюсь, потому что я забавный. Но также я чувствую твои кости и думаю о мышцах твоих рук.

Я люблю, кто я. Это имело самое большое значение, помимо всего, что могло сделать общество. Но это дает мне возможность многому научить. Я не боюсь просить о том, от чего я и, возможно, многие другие могли бы извлечь пользу. Я думаю, что одна из самых сложных вещей для понимания заключается в том, что такие люди, как я, могут иногда выступать профессионально. Но недельная конференция проверяет наши способности. Мы должны экономить свою энергию, как если бы вы бежали марафон или выпили много пива. Мы должны распределить его по отведенному времени. Поэтому я учусь не начинать слишком сильно. Если я не хочу смотреть в глаза, я этого не делаю. Если я хочу шевелиться, я делаю это. Если я не понимаю социального явления, я спрашиваю. Если мне нужно уйти, я это сделаю. Конечно, это возможно не для всех; и есть так много профессионального давления, которое заставляет нас думать, что мы должны работать адекватно или рисковать своим социальным положением / карьерным успехом. Но я на первом месте, и я узнал, что большинство людей действительно уважают это.

День 1: Семинар по прикладному машинному обучению

Первый час был посвящен управлению кризисными ситуациями, когда вся ваша интернет-инфраструктура дает сбой. Семинар по прикладному машинному обучению был двухдневным семинаром, который проводили Макс Кун и Дэвис Вон, а также ваш покорный слуга и другие бывшие стажеры. Мы хотели, чтобы каждый запускал экземпляр RStudio ServerPro, чтобы им не приходилось настраивать какие-либо среды или загружать какие-либо пакеты. Кажется полезным, верно? Не нужно идти локально, не нужно клонировать репо, не нужно возиться с установкой пакетов.

Потом начались проблемы с загрузкой.

Никто не мог подключиться, ничего не загружалось, мастерская запускалась, и рука за рукой поднималась. Оказывается, нам буквально нужно было, чтобы отель выделил больше пропускной способности для конференции, а затем чтобы люди обновили свои IP-адреса и снова подключились, как только мы это сделали. Я много практиковался в том, чтобы спокойно бегать и уверять людей, что все будет хорошо. И я получил много информации о том, что может пойти не так, независимо от того, насколько тщательно вы планируете урок, семинар или конференцию.

Сам мастер-класс освещал тонкости tidymodels. Именно здесь я начал осознавать разницу между теорией и практикой. Я работал с регрессионными моделями, деревьями решений, k-кратной проверкой, стратификацией, анализом основных компонентов и т. д. Но прикасался ли я к рабочему процессу для них? Нет! Итак, вот магия tidymodels. Раньше я задавался вопросом "хм, зачем мне тратить время на изучение всего этого?" Но с тех пор, как я заставил себя выучить dplyr несколько лет назад, я с тех пор благодарен. tidymodels имеет ряд пакетов для организации рабочего процесса:

RStudio создает эти пакеты, чтобы облегчить вашу жизнь… в конце концов. Это инвестиция, особенно для таких людей, как я, которые написали большинство алгоритмов машинного обучения с нуля или полагались на scikit-learn. Но в последнее время большая часть моей работы приходится на R, и вообще мне хотелось бы хорошо разбираться во всем, что только можно. Лучшая часть изучения новых инструментов — это возможность обучить этим инструментам других аспирантов и тех, кто действительно мог бы их использовать. На мой взгляд, пакеты от RStudio лучше всего удобочитаемы. Они пишут так, чтобы вы могли читать, и это не было моим опытом работы с Python ( pytorch, keras , pandas и т. д.). Вот Нежное введение в Tidymodels.

День 1: Мой горячий взгляд на цены на жилье и набор данных Iris

Для семинара по прикладному машинному обучению мы использовали набор данных Ames Housing. Как бы мне не нравились эти типичные наборы данных, я должен признать, почему мы их используем. Это данные из реального мира, они чистые, у них есть много рабочих примеров в Интернете, и у них есть отношения, которые помогают нам изучать различные методы моделирования. Но мое недавнее исследование предполагает, что мы могли бы получить выгоду от ввода наших собственных данных в набор данных. Даже если бы мы использовали цены на жилье в качестве наших данных (что может быть проблематичным для тех, кто никогда не будет владеть домом или плохо разбирается в предметной области)… Вы можете представить вопрос: У вас есть дом? Почему вы получили цену, которую вы получили? Как вы думаете, что имело наибольшее значение, когда вы делали ставку на дом на этом конкретном рынке? Те, у кого нет дома (что для университетского уровня является большинством студентов), вы можете спросить "Как вы выбирали, где жить? Какие были ограничения? Всегда ли цена была постоянной или менялась?» Вы можете придумать всевозможные способы включения вашего учащегося в данные, которые он собирается исследовать. Даже потратьте 5 минут на то, чтобы ваши учащиеся записали это или добавили новую строку в фрейм данных, которая представляет их собственный опыт (если применимо). Моя кандидатская работа предполагает, что это может быть полезно для оценки производительности модели, критического анализа данных и предложения дополнительных функций для включения в модель.

Мое последнее детище — запустить мастерскую, где я заказываю букет цветов ириса. Настоящие цветы ириса. Горстка будет setosa и горстка будет versicolor, и мои ученики будут фактически измерять Sepal.length вручную. Затем они попытаются выяснить, где они вписываются в данные, и классифицировать себя на основе классического набора данных iris. Вы можете многому научиться, погружаясь в контекст, получая удовольствие и замечая недостатки данных.

День 2: Генератор модных словечек

Шутка, которая начала всплывать, заключалась в том, насколько модным может быть мир технологий. Я и мой коллега, бывший стажер и подруга Майя Ганс, не могли удержаться от того, чтобы придумывать глупые названия семинаров, в которых как можно больше модных словечек помещалось в одно предложение. Казалось, что все вокруг нас находится в масштабе, или в облаке, или в контейнерах Docker и т. д. Мы в шутку начали придумывать очень длинные модные названия для поддельных семинаров, что вдохновило меня на создание простого веб-сайта для их случайной генерации. . Это не машинное обучение или что-то в этом роде, это просто случайные комбинации различных слов, упомянутых в повестке дня rstudio::conf. Но они, конечно, веселые. Нажмите Создать, и вы получите эти уморительно длинные и модные названия семинаров! Вы можете найти это на yimregister.github.io/whatworkshop. Мы достаточно смеялись над каждым из них, пока не стало больно, и это было прекрасное время.

День 3: RStudio как благотворительная корпорация

Привет! Оказывается, RStudio берет на себя юридическое обязательство быть корпорацией, которой наплевать на общественное благо. Я не был уверен во всех этих деталях, но Джей-Джей, похоже, действительно знал, о чем говорил. Он представил идею Благотворительной корпорации, которая, по сути, является коммерческим юридическим лицом, которое включает в себя положительное влияние на общество, работников, сообщество и окружающую среду в дополнение к получению прибыли в качестве своих юридически определенных целей, в том смысле, что определение «наилучшие интересы корпорации включают такие воздействия». RStudio была действительно хорошим местом для работы. Кажется, что существует очень важное общее обязательство помогать учить мир. У каждого человека, которого вы встречаете в RStudio, есть какая-то более важная миссия — помочь повысить грамотность данных на благо общества. Ни одна компания не идеальна, и вы никогда не знаете, как маркетинговые команды могут исказить темную сторону любой корпорации. Но мой опыт работы с RStudio был чрезвычайно положительным (особенно с командой образования). И это был довольно ловкий шаг для RStudio, поскольку JJ повторял вы знаете, что, если я умру?? в качестве движущей силы между юридическим объявлением RStudio ответственным за их социальное влияние. Это не должно быть делом одного человека, это должно быть частью основных обязанностей компании.

День 3: Google AI и грамотность данных (и инструменты визуализации!)

Фернанда Вьегас и Мартин Ваттенберг пришли из Google AI, чтобы рассказать о некоторых действительно потрясающих инструментах визуализации для проверки ваших обучающих данных для классификации изображений нейронной сети. Они продемонстрировали Facets, инструмент для просмотра всех этих изображений 32x32 и попытки увидеть некоторые закономерности на уровне человека, когда все обучающие данные находятся перед вами. Они продемонстрировали инструмент, который показывает, как избежать дискриминации при использовании моделей для прогнозирования того, кто будет откладывать получение кредита, и как модель оптимизируется для различных значений в зависимости от того, что вы ей говорите: Атакуйте дискриминацию с помощью более умного машинного обучения. И они показали несколько изящных визуализаций для более интуитивного понимания многомерного пространства MNIST! Этот встраивающий проектор показывает как встраивания слов, так и классический набор данных MNIST на игровой площадке 3D PCA. Их сердца были в правильном месте, и мне задавали вопросы о Slido о самоадвокации на местах! По сути, я вижу, как мы создаем эти инструменты для разработчиков и консультантов, но я хотел бы, чтобы больше внимания уделялось вере в то, что общественность также может научиться защищать себя и задавать правильные вопросы. Фернанда была очень подавлена ​​всем этим. Спасибо Хэдли за вопрос :D

День 3: Чашки, жирафы и статистика

Дезире Де Леон — настоящая волшебница. Ее художественные работы безупречны, ее речь была веселой, ее знание статистики потрясающее, а ее статистические сообщения не имеют себе равных. Добро пожаловать в мир Teacup Giraffes and Statistics, проекта, который она создала для обучения статистике в увлекательной и доступной форме. Предпосылка состоит в том, что вы аспирант, и вам нужно исследовать различия в двух популяциях жирафов из чайных чашек. В сериале есть интерактивное кодирование R, инструкции по статистике, повествование и даже забавная предыстория того, как появились жирафы из чайных чашек! Вы бы многое упустили, если бы не упивались этим невероятным проектом: Чашки, жирафы и статистика.

День 3: Неправильный гендер, сенсорная перегрузка и посттравматическое стрессовое расстройство во время конференции

Общеизвестно, что я начинаю конференцию с большим энтузиазмом, понимая, что в ближайшие несколько дней я, вероятно, разобьюсь. На этот раз я гораздо лучше осознавал, что мне нужно делать, чтобы сохранить свои социальные способности. Однако всегда наступает момент. Во-первых, мисгендеринг постоянен. У меня много терпения для обучающегося и растущего общества, которое хочет быть инклюзивным. Но они действительно терпят неудачу, и это разочаровывает. Вот и мы, с нашими маленькими табличками с нашими местоимениями, перечисленными так, как будто это новая горячая тенденция. Недостаточно назвать свои местоимения, нужно прочитать и мои. Пожалуйста. У меня есть терпение, и, конечно, я не виню людей за то, что они пытаются и «оплошают». Но недостаточно перформативно участвовать в местоименном дискурсе. Вам нужно попрактиковаться в их использовании и помнить о своих гендерных предположениях. В последнее время я чувствую себя довольно устойчивым, и часто даже чувствую себя обузой из-за того, что все равно спрашиваю. Но если вы хотите добиться инклюзивности, вам нужно перестать рассматривать нас как представителей двух полов. Вы должны попытаться понять, кто мы и за что мы выступаем.

Но недостаточно перформативно участвовать в местоименном дискурсе. Вам нужно попрактиковаться в их использовании и помнить о своих гендерных предположениях.

Это первая конференция, на которой я не пожал руки, потому что все боятся коронавируса. Что-то выигрываешь, что-то теряешь. Но переполненное пространство с большим количеством аплодисментов и движения по-прежнему подавляет. Стимминг помогает, поэтому просто помните, если вы когда-нибудь увидите, как кто-то машет руками в людном месте, он может просто справляться и не обязательно в чем-то нуждаться. Не спрашивайте их, почему они это делают. Мои коллеги-стажеры просто спросили, что они могут сделать, если вообще что-то могут. Так что мы получили обеденный стол в задней части и провели некоторое время вместе. Это плюс вся работа по восстановлению после посттравматического стрессового расстройства, которую я проделывал в разгар переосмысления всего, что со мной произошло… Я взял выходной в своей комнате! Я устроил танцевальную вечеринку в течение часа. О, и я закончил свои слайды.

День 3: Вечеринка

У нас была вечеринка в Калифорнийской академии наук, и это было действительно круто! Обычно я не могу ходить на такие вещи, потому что вечеринки тяжелы для моих чувств. Но у меня были беруши, и я люблю научные музеи больше всего на свете. Я встретил классного сотрудника RStudio, который некоторое время оставался со мной, слушая множество моих историй о том, как взрослый аутист путешествует по миру. Я узнаю, что мой опыт может помочь родителям детей с особыми сенсорными потребностями и, честно говоря, любым детям, которые перегружены. В итоге я ушел один, плюс затычки для ушей и немного вина, чтобы просто посмотреть на рыбу, узнать о тропических лесах и погрузиться во все красивые научные образы. И я узнал все о RLadies-Seattle, которая является «агрессивно инклюзивной» и включает в себя меня и мое небинарное «я». До скорой встречи, RLadies и др.!

День 4: Объект типа «замыкание» не является подмножеством

Заключительное выступление Дженни Брайан об отладке было, честно говоря, очень забавным и родственным. Она рассказала нам о шагах, которые вы должны предпринять при отладке своих программ, в том числе «Выключите и снова включите!» Но на самом деле перезапустите сеанс R и просто попробуйте еще раз в качестве первой защиты. Она затронула некоторые очень реальные проблемы чувства страха и некомпетентности, когда мы делаем ошибки. Она заставила всех нас понять, что у нас всегда будут ошибки. И наличие хорошей стратегии отладки может избавить нас от некоторых эмоциональных потрясений. Это, конечно, отражало крутую работу, которую проделали Эми Дж. Ко и Дастыни Локса в области отладки и метапознания. Эми постоянно напоминала мне, что иметь стратегию отладки гораздо лучше, чем паниковать и метаться! Самой забавной частью выступления Дженни был слайд, который я включил: «Что мы действительно видим, когда получаем сообщения об ошибках». Все страшные предупреждающие слова подсвечиваются красным, а все остальное заменено на «бла-бла-бла». Просто помните, что эти сообщения предоставляют некоторую полезную информацию, которую вы можете использовать для отладки своей программы! Однако было бы действительно неплохо, если бы он не выплевывал в нас агрессивно весь этот жаргон. Доклад первоначально был назван в шутку из-за расплывчатого и запутанного известного сообщения об ошибке R «объект типа «замыкание» не является подмножеством». В конце концов, она оставила его, потому что это слишком точно.

День 4: Наука о данных для программистов! Мой разговор!

Сейчас я в основном устал писать этот пост в блоге, поэтому я просто перейду к той части, где я выступил с докладом! И это было хорошо! И люди участвовали в моей игре Разрушители мифов о программном обеспечении! И люди смеялись! Надеемся, что Наука о данных для инженеров-программистов привлечет некоторых заинтересованных преподавателей или разработчиков программного обеспечения. Важно, чтобы те, кто создает программное обеспечение, знали, как оценить, что работает, а что нет, и что эффективно для мира и их практики. Наставничество Грега Уилсона и дружба Майи Ганс были таким подарком в моей жизни. Я навсегда вдохновлен продолжать вносить свой вклад в мир R, делиться тем, что я узнаю, оставаться открытым для обучения от других и, надеюсь, увидеть всех в следующем году!