Статистика в науке о данных, часть 1

Это первая часть из четырех статей: Статистика в науке о данных.

Часть 1: Почему специалисты по обработке данных не знают статистики?!

Часть 2. Нужна ли вам статистика для науки о данных?

Часть 3. Чувствуете, что не знаете достаточно статистики? Может быть, вы знаете больше, чем вы думаете

Часть 4. Где специалисты по данным используют статистику в своей повседневной работе?

Статисты — это ученые

Из статистиков получаются великие ученые; они стремятся делать надежные выводы из данных и осторожны при интерпретации результатов. Часто проблемы, которые они решают, связаны с пониманием и открытием или моделированием с небольшими выборками и требуют понимания плана эксперимента, теории выборки и параметрических моделей с несколькими предположениями. Для неосторожных предубеждений, искажений и искаженных предположений легко сделать результаты недействительными. Поскольку идеального тестового набораданных для подтверждения результатов практически не бывает, надежность применяемых методов и научная строгость обеспечивают достоверность результатов. Следствием этого процесса является добросовестный подход к анализу данных с большой осторожностью. Таким образом, для некоторых статистиков нет ничего, что раздражало бы их больше, чем специалист по данным без серьезного статистического опыта! В конце концов, как им можно доверять, чтобы они не ошибались при моделировании?

Вы не настоящий специалист по данным без статистики

Легко найти длинные посты на форуме с жалобами на коллег по науке о данных, которые кажутся незнающими статистики (ссылки ниже в качестве примеров). По моему опыту, для некоторых статистиков посыл ясен — вы не можете стать специалистом по данным без серьезного опыта в статистике! Несмотря на докторскую степень по статистике, с меня наложили этот налог, и я почувствовал синдром самозванца из-за моего самоощущения от отсутствия статистических знаний. Но так ли это? Что нам действительно нужно знать, чтобы быть эффективными в наших ролях?

https://www.reddit.com/r/datascience/comments/szluwh/working_with_data_scientists_that_arelacking/

https://www.reddit.com/r/statistics/comments/c9pqhy/data_scientist_people_with_no_appreciation_of/

Основной набор навыков специалиста по данным

Роли в области науки о данных значительно различаются, но для каждой из них требуется по крайней мере часть обширной базы знаний, связанной с междисциплинарной областью. Для меня наиболее важной технической деятельностью, связанной с наукой о данных, является процесс обработки данных, построения и оценки моделей. Чтобы сделать это эффективно, почти всегда требуется программирование, поэтому упор делается на изучение R или Python. Эти два аспекта обычно составляют основу для новых специалистов по данным, вступающих в поле, но, конечно, есть и многое другое…

Многие из этих навыков можно освоить на работе естественным путем: вы изучаете SQL, извлекая нужные вам данные, вы изучаете облачные платформы, используя их, и вы изучаете навыки разработки программного обеспечения, сотрудничая с коллегами, но можете ли вы сделать это со статистикой? Для меня ответ почти всегда да! (по крайней мере, для тех частей статов, которые вам нужны) и вы будете это делать, даже не осознавая этого (подробнее в части 3 серии).

Изучение статистики для науки о данных

Обучение науке о данных в высших учебных заведениях или на онлайн-платформах почти наверняка будет включать некоторую базовую статистику. Это обширная тема, и те, кто заинтересован, могут углубиться в статистические тесты, распределения вероятностей, обобщенно-линейные модели и байесовскую статистику. Несмотря на это, я считаю, что немногие люди извлекают много практических знаний из этих знаний. Статистика трудна, лежащая в основе математика, обозначения и терминология, широта и история; это может быть подавляющим. Но это не причина, по которой люди не могут получить практическое понимание, все сводится к актуальности и опыту. Большая часть того, что полезно, — это не уравнения или статистические тесты, а научный склад ума, осторожность, чтобы хорошо понять процесс генерации данных, и терпение, чтобы вдумчиво планировать эксперименты.

Практическая и теоретическая статистика

В школе распространенными и, на мой взгляд, оправданными жалобами на уроках математики являются; Зачем мне это знать? Когда я на самом деле буду использовать это? На самом деле это очень хорошие вопросы, и незнание ответов ограничивает полезность информации. То же самое относится и к статистике для науки о данных: неясно, какая часть того, чему учат, связана с типичной повседневной деятельностью специалиста по данным. Я могу дать вам определение центральной предельной теоремы, может спросить интервьюер, но как вы используете этот фрагмент информации, чтобы решить проблему для вашего бизнеса? Точно так же определение p-значения бесполезно, если у вас нет более глубокого понимания проверки гипотез. Однажды я неправильно ответил на старый вопрос о p-значении в интервью, перепутав свое предложение (null = true или null = false?), однако у меня не только был большой опыт использования проверки гипотез для получения информации из данных, но я даже разработал некоторые статистические методы во время моей кандидатской диссертации по статистике!

Вы можете освоить ключевые статистические навыки на работе

Суть этой истории в том, что давление на новых специалистов по данным с целью получить глубокое академическое понимание статистики до начала их карьеры нереально и бесполезно. Если у вас есть возможность применить статистические подходы в реальном мире, отлично! Для этого отлично подходят кандидаты наук, но для многих, не имеющих таких возможностей, обучения на рабочем месте достаточно, чтобы получить необходимые базовые статистические знания. Так что для новичков: не запоминайте определение p-значения, не изучайте неясные статистические тесты и не пытайтесь понять каждое распределение вероятностей, вместо этого научитесь мыслить как ученый.

Отчасти за разработку в этой области отвечают старшие коллеги, которые направляют и поддерживают этот процесс, а не только технические. Поэтому, если вы видите пробел в знаниях, который может привести к предвзятости, плохой обобщаемости или полному провалу проекта по науке о данных, найдите время, чтобы поделиться своим мнением!

Прежде чем я закончу, важно отметить следующие предостережения:

  1. Есть некоторые статистические концепции, которые вам нужно знать (часть 2), но я бы сказал, что для большинства интеллектуальных DS это произойдет естественным образом.
  2. Приведенный выше совет применим ко многим но не ко всем ролям в области обработки и обработки данных и ко многим но не ко всем проблемам обработки данных! Некоторые из них невозможно решить без статистики.
  3. Наука о данных — это быстро развивающаяся область, которая требует непрерывного обучения, включая статистику, это не пассивный процесс!
  4. Если вам нравится изучать статистику, продолжайте, это и хорошая основа для решения проблем с данными, и полезный инструмент в вашем наборе инструментов DS.

В следующей части этой серии я задам вопрос «Нужна ли вам статистика для науки о данных?» и рассмотрю тот минимум, который вам нужно знать, чтобы эффективно выполнять свою роль.