Мнение

Не демократизируйте науку о данных

Множество онлайн-курсов и инструментов обещают демократизировать эту сферу, но простое обучение нескольким базовым навыкам не дает истинного специалиста по данным.

Каждые несколько лет какая-то академическая и профессиональная область приобретает большое значение в народном воображении. Сейчас это наука о данных. В результате многие люди хотят этим заняться. Добавьте к этому новостные агентства, которые называют науку о данных сексуальной, и различные академические институты, обещающие сделать из вас специалиста по данным всего за несколько месяцев, и вы получите идеальный рецепт катастрофы.

Конечно, как специалист по данным, я не думаю, что проблема заключается в том, что люди выбирают науку о данных в качестве профессии. Если вы заинтересованы в работе с данными, понимаете проблемы бизнеса, разбираетесь в математике и любите программировать, вы, вероятно, преуспеете в науке о данных. У вас будет много возможностей использовать математику и программирование для разработки новаторских решений проблем, и, вероятно, эта работа будет вознаграждена. Основная проблема здесь в том, что мотивация людей выйти на поле часто бывает ошибочной.

Для некоторых привлекательность - это деньги, а другим нравится, как звучит название. Хуже того, некоторые люди, вероятно, просто реагируют на стадный менталитет, который прививает наше общество. Например, не так давно каждый выпускник стремился получить степень MBA. И я сам виноват в том же. Мне потребовалось пройти тест GMAT и несколько отказов, чтобы понять, что я на самом деле не хочу эту степень. В конечном счете, эти отказы были лучшим, что случилось со мной, потому что после этого я, наконец, посмотрел на науку о данных как на вариант. Попав в это, я обнаружил, что мне нравится математика и все способы, которыми я использую науку о данных для решения проблем для бизнеса.

Сегодня я вижу, что наука о данных каким-то образом приобрела тот же статус, что когда-то был MBA.

Многие люди хотят этим заниматься, но они не знают, что на самом деле влечет за собой работа. И это привело к тому, что многие люди стали называть себя специалистами по обработке данных и приняли множество неверных решений. Фактически, многие люди, рассматривающие возможность стать профессией, вероятно, даже не знают, что такое наука о данных.

Сегодня доступность такого большого количества материала демократизировала всю эту отрасль. Множество МООК от лучших преподавателей охватывают различные концепции, от базовых до продвинутых, и вы можете легко найти пакеты, которые позволят вам создавать модели с помощью всего нескольких строк кода.

Мне искренне нравится тот факт, что существует так много ресурсов для изучения и практики науки о данных. Но эта демократизация сама по себе создала несколько проблем. В этой статье я хочу кратко рассмотреть некоторые из этих проблем и их неблагоприятное воздействие на поле деятельности.

Автоматизированная наука о данных?

Многие пакеты AutoML нацелены на демократизацию науки о данных. Они предоставляют репозиторий моделей, автоматизируют процесс настройки гиперпараметров и иногда предлагают способ запустить эти модели в производство. Доступность таких пакетов заставила многих людей подумать, что наука о данных может быть полностью автоматизирована, что полностью устраняет необходимость в специалистах по данным. Или, если процессы нельзя автоматизировать, эти инструменты позволят любому стать специалистом по данным.

Я искренне не согласен. Иногда я находил такие кодовые базы полезными, но они смотрят на науку о данных исключительно с точки зрения кодирования.

На мой взгляд, наука о данных включает в себя много работы помимо моделирования.

Работа в области науки о данных включает в себя понимание и выявление проблемы, а также настройку правильных показателей оценки. Вы также должны проанализировать прибыльность проекта: большинство предприятий не хотят тратить деньги на проекты, которые не влияют положительно на чистую прибыль. Вы можете работать с существующими данными, но иногда вам может потребоваться создать новые конвейеры данных для сбора данных для решения проблемы. Для этого необходимо поговорить с заинтересованными сторонами и получить целостное понимание проблемы. Специалист по анализу данных также должен уметь изменять данные и создавать функции, чтобы повысить производительность существующих моделей. В конце концов, тестирование модели и настройка цикла обратной связи требуют бесконечных часов обсуждений с бизнесом и довольно специфичны для каждого проекта. Тот, кто просто запускает код, может быть не в состоянии повысить ценность таких обсуждений, поскольку не понимает, что стоит за моделями, которые они использовали в AutoML.

Затем возникает вопрос о знании предметной области. Процессы, приемлемые в сфере розничной торговли, неприменимы в финансовой сфере, где небольшое изменение может привести к потере ваших клиентов большими деньгами. Некоторые вещи просто невозможно автоматизировать, поскольку они требуют знания предметной области и понимания бизнеса, с которым вы работаете.

Что еще более важно, автоматизированный конвейер не может нести ответственность, если проект не работает или ваша модель выйдет из строя.

Хороший специалист по данным будет пытаться найти способы решения производственных проблем по мере их возникновения, а также создать конвейер машинного обучения, специфичный для проекта, для смягчения таких проблем.

Менталитет программиста

Я скептически отношусь к тому, что я называю специалистом по новым данным. Кажется, почти каждый день я встречаю человека, называющего себя специалистом по данным, тогда как они просто прославленные бегуны кода, что относится к человеку, который просто запускает код, не понимая, что за этим стоит. Поскольку так много академий и институтов предлагают учебные курсы, исполнителей кода сейчас в изобилии.

Я получаю много запросов, когда меня спрашивают, следует ли им пройти сертифицированный курс от института XYZ или учебный лагерь от академии ABC. Мой ответ - ни то, ни другое. Я обнаружил, что эти институты, которые обещают массово готовить специалистов по данным, в основном занимаются исключительно прибыльным бизнесом. В конце концов, просмотр нескольких блокнотов и запуск чужого кода еще не делает человека специалистом по данным.

Не поймите меня неправильно. Если кто-то лучше всего учится, используя нисходящий подход, когда он сначала запускает какой-то код, а затем подробно читает о принципах, лежащих в его основе, это прекрасно. Однако наука о данных - это больше, чем просто запуск кода. Пока вы по-настоящему не поймете математику и теорию, лежащую в основе всего кода, вы не освоите науку о данных.

Эффект Даннинга-Крюгера

Эффект Даннинга-Крюгера - это разновидность когнитивной предвзятости, при которой человек, обладающий небольшими знаниями о каком-либо предмете, переоценивает свои способности, потому что не осознает, насколько мало они на самом деле знают. Я постоянно вижу это в действии в науке о данных. Фактически, в этой области он может быть более выраженным, чем в любой другой!

Я склонен думать об этом как об эффекте новичка. Это проблема, которая беспокоит людей на ранних этапах освоения нового навыка. На мой взгляд, путь специалиста по обработке данных состоит из трех этапов.

  • Этап Даннинга-Крюгера. Вы создали свою первую модель и думаете, что знаете все, что нужно знать о науке о данных.
  • Этап «Я ничего не знаю». Вы приходите на конференцию или разговариваете со своими сверстниками и внезапно понимаете, что есть еще много всего, чему можно научиться.
  • Этап «Непрерывное обучение» - вы соглашаетесь с тем, что всегда будут некоторые вещи, о которых вы не узнаете, но которые только что были представлены, и поэтому изучение данных требует обучения на протяжении всей жизни.

Теперь с эффектом Даннинга-Крюгера сталкивается большинство новичков. Удовольствие от запуска вашей первой программы и ее безупречного выполнения действительно приведет вас к вершине мира. И быть на этом этапе совершенно нормально. Проблема возникает, когда новички не могут своевременно покинуть этот этап и перейти к следующему. Я видел несколько человек, которые застряли на этом этапе из-за того, что они попали в науку о данных с неправильными ожиданиями, думая, что это сексуально и захватывающе, не понимая глубины предмета. Люди этого типа склонны думать, что они могут просто использовать существующие модели для решения задач и обходятся без понимания математики.

Например, я недавно брал интервью у парня, у которого был двухлетний опыт работы в этой области. Он казался уверенным. Он использовал науку о данных в своей работе и работал над несколькими проектами Kaggle. Первые несколько минут интервью прошли очень хорошо. Он достаточно хорошо объяснил концепции более высокого уровня, и я решил немного глубже погрузиться в его математическое понимание техник, которые он применял в своих проектах. И здесь все изменилось. Я попросил его рассказать мне о функции потери журнала. Когда он сказал: « Но у нас есть пакеты для всего этого ,» , я понял, что этот парень никогда не покидал первый этап.

Заключение

Доступность готовых пакетов и курсов демократизирует сферу науки о данных. Но работа - это гораздо больше, потому что она основана на практическом опыте, общении с людьми и умении выслушивать разные точки зрения.

Итак, хотя некоторые люди могут думать о науке о данных как о чистой работе по кодированию, речь идет не только о том, чтобы стать суперзвездой кодирования.

Речь идет о поиске правильных проблем, полезных для бизнеса, и поиске лучших способов их решения. Для этого вам нужны знания предметной области, скромность, немного математики и, что наиболее важно, желание учиться на протяжении всей жизни.

Если вы хотите узнать больше о Data Science, я хотел бы упомянуть этот отличный курс Эндрю Нг. Это было то, с чего я начал.

Спасибо за прочтение. Я собираюсь писать больше постов для новичков в будущем. Подпишитесь на меня в Medium или подпишитесь на мой блог, чтобы быть в курсе о них. Как всегда, я приветствую отзывы и конструктивную критику, и с ними можно связаться в Twitter @mlwhiz.

Также небольшой отказ от ответственности - в этом посте могут быть партнерские ссылки на соответствующие ресурсы, так как обмен знаниями никогда не является плохой идеей.

Впервые эта история была опубликована здесь.