Наука о данных не обязательно должна быть сексуальной, чтобы быть эффективной

Праздник Грейс Хоппер 2020

В этом году с 29 сентября по 3 октября 30 000 технологов из 115 стран собрались на Праздник Грейс Хоппер, ежегодную конференцию для женщин, чтобы учиться, общаться и отмечать свои достижения в сфере технологий. Мне посчастливилось быть одним из участников, и я многому научился из огромного диапазона выступлений, проведенных там - от того, как оценивать идеи стартапов, до того, как работает аппаратное обеспечение AI следующего поколения, до борьбы с угрозой стереотипов и синдромом самозванца, до использование специальной нейронной сети, основанной на времени, для обучения роботов автономному вождению, о которой я писал в предыдущем посте.

Построение отличной карьеры в неизведанных областях науки о данных

Одна вещь, которую я не ожидал обнаружить, - это то, что одна из моих любимых бесед будет из не сразу захватывающего мира бухгалтерского программного обеспечения. Но я хотел написать о выступлении двух старших специалистов по обработке данных в Intuit, к которому я пришел, потому что это один из лучших примеров, которые я когда-либо видел, того, как задача, которая изначально может показаться действительно обыденной, на самом деле может быть действительно увлекательной и сложной наукой о данных. проект.

Может быть действительно заманчиво попытаться найти роли в области науки о данных в областях, которые сейчас являются «горячими» ... Но потрясающая карьера может быть построена за пределами того, что в настоящее время считается сексуальной или гламурной темой в науке о данных.

Все мы слышали печально известную цитату из заголовка статьи Harvard Business Review в 2012 году о том, что специалист по обработке данных - самая сексуальная работа в 21 веке. Даже в рамках этой сексуальной работы сексуальные кусочки машинное обучение, как правило, привлекает все внимание, как и упомянутые выше автономные роботы. Но в менее привлекательных частях (включая бухгалтерское программное обеспечение, как выясняется) ведется действительно большая работа, которая может быть увлекательной и сложной во всех неожиданных смыслах.

Я думаю, что это особенно важный момент, на который следует обратить внимание всем, кто читает это, кто в настоящее время начинает свою карьеру в области науки о данных. Может быть действительно заманчиво попытаться найти роли в области науки о данных в областях, которые сейчас горячие в СМИ, такие как автономные транспортные средства, язык и имидж-генеративные модели, помощники ИИ или что-то еще. где описание должности щедро приправлено фразой передовой.

Но потрясающая карьера может быть построена за пределами того, что в настоящее время считается сексуальной или гламурной темой в науке о данных. Некоторые из наиболее эффективных работ происходят в унаследованных отраслях или отраслях, которые относительно новы в области науки о данных, таких как право, недвижимость или, в данном случае, бухгалтерский учет.

Это огромные отрасли с огромным спросом и существующей базой пользователей, а также огромным неиспользованным потенциалом для применения науки о данных и машинного обучения. В результате появляется огромное количество возможностей для новых проектов, где даже небольшие улучшения и повышение эффективности могут привести к действительно значительным результатам и добавить огромную ценность.

Вдобавок ко всему, подобные проекты могут быть очень интересными. Я сам работал над некоторыми из них, но тот, о котором я хочу поговорить, является еще более четким примером. То, что на первый взгляд кажется относительно простым случаем для модели классификации, оказывается делом науки о больших данных, включающим в себя целый ряд сложных процессов обработки данных, несколько различных моделей машинного обучения и индивидуализированные методы оценки.

Чи-чат: основанная на показателях структура когортации пользователей для рекомендации лучшего канала

С этим докладом выступили Чжэвэнь Фань (старший менеджер по анализу данных) и Вэнь Яо (старший научный сотрудник), Intuit

Обманчиво сложный проект по науке о данных

Этот пример взят от компании Intuit, которая создает бухгалтерское и другое финансовое программное обеспечение для частных лиц и предприятий. Когда клиент обращается в службу поддержки клиентов, у него есть три варианта разговора с кем-либо - звонок по телефону, чат в реальном времени или обратный звонок по расписанию. Для разных типов вопросов подходят разные методы. Например, онлайн-чат популярен и подходит для простых стандартных вопросов, но не так хорош, если у вас есть более сложный вопрос.

Итак, задача заключалась в том, чтобы, когда у клиента возникает вопрос, порекомендовать, какой из трех каналов ему следует использовать. Общая цель заключалась в том, чтобы направить поведение пользователей в сторону того канала, который им лучше всего помогает, повысить удовлетворенность клиентов и сократить время обработки. Звучит довольно просто - это всего лишь задача классификации, не так ли? Неправильно. На самом деле, этот, казалось бы, простой вопрос оказался сложным и интересным проектом в области науки о данных, включающим несколько различных моделей машинного обучения и множество других соображений.

С точки зрения выполнения результативной работы - что всегда должно быть конечной целью каждого специалиста по данным - этот проект поможет миллионам клиентов получить необходимую помощь в той форме, которая им лучше всего подходит.

Шаги проекта

Во-первых, у вас есть беспорядочные данные по обучению в виде сотен тысяч вопросов в службу поддержки. Каждый клиент и его потребности уникальны, и ответы разных агентов различаются. На шаге 1 специалисты по обработке данных должны были использовать обработку естественного языка для предварительной обработки текста, чтобы подготовить данные для этого вопроса. В дополнение к стандартным вещам, таким как удаление стоп-слов, это также включало такие вещи, как сопоставление акронимов, настраиваемый модуль проверки орфографии, включая ключи, связанные с Covid, такие как `` проверка стимула '', и термины, специфичные для налогового программного обеспечения, такие как `` TurboTax '', и стандартизация формата названий налоговых форм (которые оказываются на удивление сложными).

Затем, на шаге 2, они использовали модель под названием sent2vec, чтобы представить вопросы как набор встраиваемых предложений. Это основано на фантастической модели встраивания слов под названием word2vec - если вы еще не знакомы с ней, я настоятельно рекомендую ее проверить. Word2vec можно использовать для сокращения большого корпуса слов до меньшего количества функций, которые, по сути, представляют общие контексты слов. Каждое слово в корпусе может быть представлено в виде вектора (также известного как встраивание слов), который имеет значение для каждой из этих общих функций. Sent2vec преобразует эти вложения слов в вложения предложений, взяв среднее значение вложений слов в предложении. Это создает вектор, который представляет предложение в созданном вами n-мерном пространстве, где n - количество встроенных функций.

Затем на шаге 3 они использовали кластеризацию k-средних для кластеризации вопросов на основе этих встраиваний предложений плюс некоторые функции, которые дают контекст о пользователе, включая его операционную систему, платформу и язык. На шаге 4 они добавили к этому, проведя когорцию клиентов с использованием этих контекстных функций.

Затем, на шаге 5, они выполнили разметку кластеров на основе показателей, чтобы определить правильный канал для использования, что также включало тесты статистической значимости (назовем этот шаг 5.5). Это оказалось серьезной технической проблемой, потому что они должны были оптимизировать несколько показателей: удовлетворенность клиентов, эффективность, разрешение обращений и предпочтения клиентов. Что еще более усложняет ситуацию, некоторые метрики конфликтуют друг с другом. Например, более длительные звонки, которые плохо сказываются на времени разрешения дела, часто приводят к более высокой удовлетворенности клиентов.

Чтобы присвоить ярлыки правильным каналам, они использовали действительно интересный иерархический последовательный подход, основанный на приоритете метрики. Например, удовлетворенность клиентов была их самым важным показателем. Поэтому сначала они провели t-тест с двумя выборками для Net Promotor Score (обычно используемый показатель удовлетворенности клиентов). Если бы результаты были значительными (т. Е. Если бы в этом случае один канал был бы значительно лучше), они бы порекомендовали канал с лучшим показателем. В противном случае они перейдут к следующему показателю, например case handle time - и повторить процесс, и так далее для каждой метрики.

Эти примеры предоставят рекомендации, основанные на показателях. Если ни один из показателей не оказался значимым, но показатель предпочтений пользователя был значительным, тогда они дали бы рекомендацию на основе предпочтений - например, если клиенты предпочитали запланировать обратный звонок по определенному типу вопросов. Если результаты не были значительными по какому-либо показателю, по умолчанию использовался чат, так как это был самый популярный канал в целом.

Наконец, на шаге 6 они провели A / B-тестирование, основанное на удовлетворенности, разрешении контактов и эффективности звонков, чтобы определить, улучшила ли модель текущую ситуацию (когда пользователи выбирают собственный метод общение, без рекомендации). В этом случае в A каналы были упорядочены случайным образом, а в B канал был рекомендован моделью машинного обучения. Рекомендации на основе машинного обучения показали лучшие результаты по всем показателям. Они также выводят силу рекомендации модели, чтобы указать, была ли она сильной или слабой, и обнаружили, что, когда модель была уверенной, качество обслуживания клиентов улучшилось еще больше.

Неважно, насколько сексуально или актуально звучит наука или тема. Что важно, так это добавление ценности, влияние и создание вещей, которые помогают людям и решают проблемы - и вы можете делать это, работая в любой области.

Эффективная наука о данных

Таким образом, несмотря на то, что вначале этот проект казался относительно простым, эта задача включала в себя сложную предварительную обработку данных, модели НЛП для встраивания слов и предложений, модели кластеризации, когортацию клиентов, тестирование статистической значимости, комплексное решение для маркировки на основе иерархии показателей. , и A / B-тестирование. А с точки зрения выполнения эффективной работы - что всегда должно быть конечной целью каждого специалиста по обработке данных - этот проект поможет миллионам клиентов получить необходимую помощь в той форме, которая им лучше всего подходит. Неплохо.

Поэтому в следующий раз, когда вы обнаружите, что просматриваете списки вакансий в области науки о данных или вас просят поработать над проектом, который сразу не звучит как самая гламурная тема науки о данных в мире, просто помните, что это не имеет значения, насколько сексуально или остроумно. край науки или тема звучит. Что важно, так это добавление ценности, влияние и создание вещей, которые помогают людям и решают проблемы - и вы можете делать это, работая в любой области.

Наука о данных не обязательно должна быть сексуальной, чтобы быть эффективной