Сообщество dataviz широко и включает в себя практиков из разных слоев общества, профессий и интересов. Стремясь познакомиться с сообществом, Nightingale периодически публикует интервью с практиками визуализации данных, чтобы продемонстрировать, как для них выглядит работа в области визуализации данных.

Сегодня мы встречаемся с Лоуренсом Греем, доктором философии, руководителем отдела науки о данных в KPMG Spark, преподавателем, преподающим аналитику, включая визуализацию, и предпринимателем, который назвал себя холодным парнем с интересами от регги до серфинга. Он также вносит свой вклад в сообщества открытого исходного кода через NumFOCUS, который поддерживает инновационные научные вычисления, и Python Software Foundation и его ежегодную конференцию PyCon. Его путь к машинному обучению с визуализацией данных показывает, почему для достижения наилучших результатов в этом году нужно попробовать что-то новое. Вы можете найти его в LinkedIn.

Хотите назначить кого-то (включая себя!) для интервью? "Связаться"!

Кэтрин для Nightingale: Мы впервые встретились, когда я был одним из ваших студентов, и я очень рад поделиться вашим мнением с сообществом Общества визуализации данных (DVS). Хотите, чтобы наши читатели знали вас как доктора Грея или Ларри?

ЛГ: Ларри.

Nightingale. Не могли бы вы рассказать своими словами о том, чем вы занимаетесь, и описать, какое место занимает визуализация данных?

ЛГ: Dataviz необходим для того, чем я занимаюсь. Чтобы свести это к тому, что я делаю каждый день, мне необходим визуальный анализ, чтобы лучше понять аналитический аспект моей работы. Я знаю, что если бы я занимался статистическим описанием данных без визуального представления, моя интерпретация могла бы быть совершенно неверной.

Эта идея исходит из четверки Анскомба, где статистик Фрэнсис Анскомб рассмотрел описательную статистику четырех разных наборов данных, и все описательные статистики были одинаковыми: одно и то же среднее значение, одно и то же стандартное отклонение. Только когда вы визуально посмотрели на наборы данных, вы увидели, что они разные. Я видел пример под названием Датазавр, где один набор данных дает вам изображение динозавра, но имеет ту же описательную статистику, что и другой.

Визуализация данных необходима для работы, которую я выполняю как специалист по данным, а визуальный анализ — это то, что позволяет мне быстро и эффективно перемещаться по моделям, которые я создаю.

ЛГ: Я использую библиотеки программирования, такие как Yellowbrick, которая представляет собой библиотеку машинного обучения Python, построенную на визуальном анализе. Вы создаете наглядную диаграмму, такую ​​как кривые ROC, которая представляет собой представление того, как работают ваши модели машинного обучения. Визуальный аспект чрезвычайно важен, потому что вместо того, чтобы смотреть на цифры, я смотрю на изображения и могу быстро определить производительность и качество моделей, которые я создаю. Это исключительно визуальный опыт, и возможность создавать такие визуализации становится чрезвычайно важной.

Nightingale. Это одна из тем, которым вы учите на своих занятиях, что визуализация данных должна происходить на протяжении всего аналитического процесса.

Л.Г.: Безусловно, я не смог бы выполнять ту работу, которую делаю, без визуализации данных. Это на самом деле влияет на эффективность и качество работы, которую я делаю. Если я знаю, что модель машинного обучения работает плохо, я могу определить, что модель работает ужасно, верно? Я могу внести изменения, чтобы посмотреть, улучшится ли это. Если это не так, я могу перейти к чему-то другому.

Я основной участник Yellowbrick. Я думаю, более или менее, я человек dataviz. На самом деле я поддерживаю пакет языка программирования, ориентированный на визуализацию данных!

Nightingale: Вы начали свою карьеру в качестве академического ученого, занимаясь исследованиями в области физиологии и вычислительной биологии. Вы придерживаетесь подобного научного подхода в своей работе сегодня? Есть ли в науке о данных параллели с более устоявшимися областями биологии и химии?

ЛГ: Да, определенно есть. Все начинается с формулировки проблемы, и именно так я подхожу ко всей своей работе — четко формулирую проблему и выдвигаю гипотезу для проверки. Это научный метод. Это основа того, как я решаю проблемы в науке о данных.

Nightingale: Вы иногда упоминали об этом, говоря о том, как вы работаете со своей командой в KPMG, всегда возвращаясь к проблеме, которую вы пытаетесь решить.

ЛГ: Да. Я написал учебник, в котором описывается, как мы занимаемся наукой о данных в Spark. Он начинается с формулировки проблемы, две-три страницы посвящены ее определению. На протяжении всей книги это всегда возвращается к вашей формулировке проблемы: действительно ли это относится к формулировке проблемы, с которой вы начали, и вам придется уточнить этот вопрос?

Nightingale. Есть ли в вашем руководстве стандарты или методы визуализации данных?

ЛГ: Да, визуализация данных вступает в игру в нескольких местах. При исследовании данных вы выполняете описательную статистику и исследовательский анализ. Вы создаете гистограммы, вы создаете диаграммы, все эти различные описательные визуализации, чтобы лучше понять ваши данные, верно?

Затем мы также проводим визуализацию данных на другом конце, где мы разрабатываем модели машинного обучения, и мы хотим посмотреть, как эти модели работают. Существуют различные визуализации, которые мы создаем для измерения производительности. Например, в наших моделях мы меняем все эти различные аспекты; мы записываем каждый раз, когда что-то меняем, и смотрим на результат. Одним из выходных данных является визуализация данных, показывающая показатели производительности или качества. Я могу вернуться позже и сказать: «Эй, ты сказал, что эта модель была лучшей. Но, судя по этой визуализации, вы можете видеть, что эта модель на самом деле работает лучше».

Другой аспект того, как мы используем визуализацию данных, заключается в том, как мы сообщаем за пределами нашей команды, что с точки зрения бизнеса мы создали нечто, превосходящее нашу текущую модель. Мы должны убедить бизнес-лидеров, что нам нужно иметь это в производстве, и мы выиграем от этого. Так как же их убедить? Эти визуализации данных великолепны в этом отношении. Вы можете сопоставить их и сказать: «Эй, посмотрите на эту производительность в тех областях, где мы раньше не справлялись. Сейчас мы выступаем намного лучше».

Мы не создаем причудливые сюжеты, но визуализация — это то, как я люблю видеть информацию. Смотрю на цифры и глаза мутнеют. Позвольте мне увидеть картину.

Nightingale. Когда вы представляете подобный случай другому бизнес-лидеру, как правило, у него есть хороший технический опыт?

ЛГ: Нет. Большинство людей, с которыми я работаю, не имеют технического образования. Часть моей работы заключается в том, чтобы помочь нашей организации стать более ориентированной на данные. Когда я впервые присоединился к компании, я запустил программу по грамотности данных; частью этой программы был dataviz. Например, как вы интерпретируете графики?

Бизнес-лидеры не являются техническими лидерами, поэтому первое, чего вы пытаетесь добиться, — это убедиться, что то, что вы пытаетесь объяснить, очень и очень ясно. В большинстве случаев у нас не бывает встречи, на которой мы можем все описать. Обычно мы отправляем электронное письмо и описываем, что происходит. Этот человек должен быть в состоянии поднять это и прийти к выводу, который вы ожидаете. Достижение этого — талант — я занимаюсь этим уже почти 20 лет.

Nightingale: Это обнадеживает, на это нужно время! Могли бы вы представить себе достижение целей обучения без визуализации данных?

ЛГ: Без вопросов, я не мог. Я не мог выполнять свою работу — свою работу — без визуализации данных. В том, что я преподаю в Джорджтаунском университете, есть огромный модуль визуализации данных, и даже продвинутый курс Python, который я преподаю в Колледже искусств Мэрилендского института (MICA), имеет встроенные элементы визуализации данных. Датавиз необходим. Я чувствовал бы, что оказываю своим ученикам медвежью услугу, если бы не учил их создавать визуализации, связанные, в моем случае, с анализом данных. Они были бы недолговечными.

Nightingale: Ваша карьера включала различные отрасли, стартапы и докторскую степень. Как вы пришли к аналитике?

ЛГ: Путь, который я прошел, шел от открытия любви к технологиям к любви к решению проблем, к любви к решению проблем и технологиям вместе и к быстрой работе. Я понял, что это были вещи, которые должны были произойти, чтобы я стал лучшим.

Вначале я путешествовал по миру, столкнулся с ошибкой при запуске и понял, что мне нравится программировать больше, чем быть в поле. Работа в области биомедицинских исследований и вычислительной биологии позволяла мне быть чрезвычайно творческим, но скорость, с которой можно было делать открытия, была низкой. Когда я увлекся машинным обучением, в нем было все, что мне нравилось, и я мог очень быстро получать ответы. Мне нужна немедленная обратная связь.

Nightingale: Каково это быть частью растущей технологической сцены в Солт-Лейк-Сити, штат Юта? Вы также побывали на всех континентах, кроме Антарктиды. Если бы вы могли работать где угодно, где бы вы были?

ЛГ: Если бы я мог работать удаленно из любого места, это, вероятно, было бы в Тасмании, в Австралии. Погода там классная. Люди потрясающие.

Я много интегрировался в технологическую сцену Солт-Лейк-Сити в качестве соорганизатора PyData Meetup и пригласил спикеров, таких как член правления Yellowbrick и автор самых продаваемых книг по Python. Я встретил столько людей в техническом сообществе, сколько мог, чтобы попытаться вовлечь их. За пределами Нью-Йорка Солт-Лейк-Сити является одним из ведущих центров финансовых технологий в мире.

Nightingale. DVS действительно помогает расширить и усовершенствовать знания в области визуализации данных. Как на это влияет машинное обучение по мере развития двух дисциплин?

ЛГ: Сейчас у нас есть руководители высшего звена, которым необходимо лучше понимать модели машинного обучения из-за случаев, связанных с неявными предубеждениями, будь то реформа правосудия или модели, которые предвзято относятся к женщинам, например, в результате чего женщины не могут получить определенные сведения. кредиты. Вот где dataviz может сыграть свою роль, поскольку он может сообщить заинтересованным сторонам об алгоритмической предвзятости.

Существует неотъемлемая связь между работой специалистов по данным и созданием визуализаций данных. Если мы начнем создавать сотни моделей, наша способность интерпретировать эти модели, чтобы сделать их максимально эффективными, будет связана с нашим производством визуализаций данных.

Nightingale. Вы писали в блоге статьи о преподавании и описывали, что проводить много времени в офисе со студентами на самом деле эгоистично! Что в этом для вас?

ЛГ: У меня есть наставник, и в начале моего обучения она провела бессчетное количество часов, просто слушая меня. Мы увлеклись вопросами и углубились в объяснения вещей. Меня осенило, что она искренне верила, что студенты обладают способностью понимать вещи гораздо глубже, чем многие думают, и что ее обязанность как наставника — помочь развить такой тип мышления и любознательность. При этом вы, естественно, многому научитесь сами.

Как мне расти? Я пытаюсь повторить это. Преимущество преподавания в том, что вы быстро понимаете то, чего не знаете.

Nightingale: Спасибо, Ларри. Можете ли вы поделиться какими-либо другими ободряющими или предостерегающими словами?

LG: Одна из вещей, которые я хочу сказать, предназначена для тех, кто не имеет жесткого технического образования, но любит визуализацию данных и хочет изучить более техническую сторону. Я считаю, исходя из своего опыта преподавания в MICA, что эти специалисты-практики более чем способны овладеть этими навыками. Это восходит к сообщению в блоге, которое я написал на LinkedIn о том, что я вижу среди студентов-гуманитариев и художников. Эти студенты обладают способностью творчески подходить к решению технических проблем. Те, у кого есть опыт работы с визуализацией данных, но в противном случае он мог бы держаться подальше от Python или других технологий, более чем способны их изучить. Я хочу призвать их принять новый вызов в этом году в области программирования или технологий. Возможно.

Первоначально опубликовано в Nightingale, журнале Общества визуализации данныхна https://nightingaledvs.com, 31 марта 2022 г.