Они работали на меня, и они будут работать на вас

Наука о данных — это профессия, которая все еще изобретает себя. Это делает его чрезвычайно интересным, творческим и даже волшебным. Тридцать лет назад вас бы не назвали специалистом по данным, этого термина не существовало. Вероятно, вас бы не назвали инженером по машинному обучению или инженером по данным. Тогда это было менее гибко. Вы были связаны учебной программой, вращающейся вокруг классической статистики или актуарных наук, с упором на такие вещи, как p-значения, вероятности, линейная регрессия, модели выживания, нулевая гипотеза, измерение репрезентативных выборок и т. д.

Сегодня многое изменилось. У нас больше вычислительной мощности и распределенных алгоритмов, позволяющих вводить в модель практически любой объем данных. Я бы по-прежнему рекомендовал прочную статистическую основу, особенно если вы собираетесь проводить крупномасштабные опросы или планировать медицинские исследования.

Все, что я сказал до сих пор, не поможет вам «перепрыгнуть» через конкурентов, поскольку это то же самое, что изучают все остальные. Итак, вот 5 советов, чтобы выделиться из стада, и, что самое приятное, их нетрудно усвоить.

Я буду начинать каждый совет с вопроса, чтобы проверить вас, а затем давать ссылку, если она у меня есть, чтобы глубже погрузиться в эту тему.

Совет № 1: можете ли вы перевести показатель AUC в сумму в долларах?

Если вы ответите «да», то вы на голову выше остальных, переходите к следующему вопросу. Если нет, подождите, и я покажу вам простой способ сделать это.

Статистическая оценка абсолютно бесполезна для конечного пользователя — бесполезна для большей части мира. Теперь сумма в долларах не бесполезна. Это лингва-франка бизнеса; все это понимают и используют при оценке покупок. В большинстве компаний есть кто-то, кто может это сделать, возможно, финансовый аналитик или финансовый директор, кто угодно, и вы должны добавить свое имя в этот список.

Позвольте мне привести вам один пример с использованием матрицы путаницы, хотя существует множество других способов выяснить стоимость реализации модели. Матрица путаницы разбивает результаты модели на такие категории, как истинно положительные, ложноположительные, истинно отрицательные, ложноотрицательные.

Мы сосредоточимся на истинных срабатываниях и ложных срабатываниях. Таким образом, если у вас есть медицинская модель, которая возвращает 3 случая с высокой вероятностью для каждого действительно больного пациента, больница знает, что ей потребуется просмотреть 3 пациентов, чтобы найти действительно больного. Все, что им нужно сделать, это подсчитать стоимость клиники, медсестер, врачей, техников, флеботомистов, лабораторных/аналитических работ и т. д. для 3 пациентов, и у вас есть стоимость поиска и лечения одного пациента с использованием вашей модели.

Для получения дополнительной информации ознакомьтесь с «Матрица путаницы — лучший переводчик от ботаника до руководителя — 5 минут для науки о данных».

Совет № 2. Можете ли вы превратить предсказание модели в полезную информацию?

Какой смысл в модели, если ее нельзя преобразовать во что-то действенное? Ни в коем случае, если только это не хакатон или соревнование Kaggle. Он следует тому же принципу, что и первый вопрос, но гораздо важнее. Что бы ни возвращала модель, это должно быть преобразовано во что-то действенное для конечного пользователя. Все серийные модели будут делать это в той или иной форме. Во многих случаях прогнозы передаются другому аналитику, который упаковывает их в отчет и передает эксперту в предметной области (SME) для распространения на местах. Что-то в этом духе. Это то, во что вы должны быть вовлечены. Это происходит, и для вашего образования и карьеры очень важно, чтобы вы принимали участие в этом действии.

Если вам нужно продать модель своей команде, другому отделу или клиенту, вам нужно будет объяснить, каковы важные функции, каковы пограничные случаи, что на уровне наблюдения может привести к тому, что случай будет высокая вероятность. Вся эта информация затем используется для создания практических идей.

Вот видео, которое я сделал, чтобы извлечь полезные идеи из оценок учащихся, чтобы помочь отстающим, и это делается как с моделью классификации, так и с пост-анализом на уровне наблюдения, чтобы увидеть, какие функции отличаются от других студентов. Некоторые из этих различий могут очень хорошо сказать вам, какая помощь нужна студенту.

Совет № 3. Можно ли перенести машинное обучение в Интернет?

Кто-то может сказать вам, что это не ваша работа, это слишком сложно, это ниже вашего достоинства и так далее — не обращайте на них внимания. Если вы вовлечетесь в этот процесс за пределами машинного обучения или науки о данных, вы начнете видеть «большую» картину. Это критически важный аспект не только для расширения ваших собственных знаний, вашей полезности в процессе проектирования и развертывания проектов, но также позволит вам начать свой собственный бизнес, стартап или консалтинг. Это то, что позволяет вам делать вещи самостоятельно!

Я снял много видеороликов о переносе машинного обучения в Интернет, используя мой любимый веб-конвейер с полным стеком, состоящий из Python, Flask и HTML5. Преимущество расширения ваших проектов машинного обучения за пределы блокнота Jupyter в Интернете означает, что каждый, у кого есть подключение к Интернету, сможет получать удовольствие от вашей работы и учиться на ней. Подумайте об этом, на Github несколько десятков миллионов человек, и только часть из них может быть знакома с языком программирования, который вы используете, в то время как количество людей, подключенных к сети, превышает 4 миллиарда! Я позволю тебе посчитать там…

Специально для вас у меня есть урезанный пример, в котором я расширяю простую модель финансового прогнозирования из блокнота Jupyter в Интернет!

Совет № 4: Насколько хорошо вы знаете своего клиента?

Я знаю множество специалистов по данным и программистов, которые никогда не видят своего клиента или конечного пользователя. Некоторые даже считают это преимуществом работы. Позвольте мне сказать одну вещь: кто, по вашему мнению, зарабатывает больше денег в компании: программист, специалист по данным или продавец? Это последнее, они не привязаны к зарплате, они работают на комиссионных, так что предела нет. А знаете, что они делают хорошо? Да, они хорошо знают своих клиентов.

Дело не только в деньгах, но и, что, наверное, важнее, в качестве работы. Вы не сможете построить хорошую модель, не понимая потребностей и проблем вашего клиента. Я больше никогда не работаю над проектами, где не считаю клиента частью своей команды. Это включает в себя множество интервью по дизайну, еженедельные стендапы, обмен исходным кодом, прогресс и обучение их во время выпуска. И на этом отношения не заканчиваются. Вы можете выезжать на места, получать отзывы от реальных пользователей, измерять, насколько хорошо работает модель, искать области, которые можно улучшить, и смягчить дрейф модели.

У меня нет видео на эту тему, но мой совет: попросите своего босса или менеджера присутствовать на встречах с вашими клиентами. Сделайте это как можно раньше в графике проекта. Сначала вы можете чувствовать себя неуклюже, говорить неправильные вещи, но в конце концов вы это поймете, и все это станет вашей второй натурой. Как только вы начнете это делать, вы больше никогда не сможете работать в вакууме, и качество вашей работы будет выше, чем у ваших коллег.

Совет № 5. Соревнуетесь ли вы на Kaggle?

Именно здесь я «порезал зубы», изучая науку о данных. Большая часть того, что я узнал изначально, пришла оттуда. Я начал соревноваться еще до того, как получил степень в области науки о данных. На самом деле, еще забавнее то, что когда я пытался провести свое первое соревнование, что-то связанное с Facebook, я ничего не знал о Python или языке программирования R. Я был новичком с Уолл-стрит в качестве разработчика количественных данных и был по колено в программировании на C# с высокой производительностью и малой задержкой. Итак, мое первое соревнование было проведено с использованием C#. Это было отстойно, поскольку мне пришлось изобретать множество вещей, которые другие считали само собой разумеющимися, например, фреймы данных и готовые алгоритмы моделирования.

Тем не менее, я влюбился в модельный бизнес. Я быстро выучил R и Python и начал конкурировать на равных. Я никогда не получал золотых медалей, но получил много серебряных и бронзовых, что принесло мне звание «Эксперт соревнований».

У меня больше нет времени соревноваться, но оно было там, когда я нуждался в нем больше всего, и сообщество было так щедро на свое время, что я буду вечно благодарен.

Здесь также нет ссылки на видео, за исключением этого совета — создайте учетную запись прямо сейчас, если у вас ее еще нет, и соревнуйтесь!

Следите за моими последними проектами на ViralML.com и amunategui.github.io и обязательно подписывайтесь на мою рассылку!

Первоначально опубликовано на ViralML.com