Стремление к чистому прогнозированию не должно быть единственной целью специалиста по обработке данных.

Опыт в предметной области - это знание и понимание конкретной области. Как специалисты по данным, вы можете работать в самых разных отраслях, в каждой из которых есть свои сложности, которые можно изучить постепенно, с течением времени.

В качестве простой иллюстрации взгляните на эти группы слов для разных отраслей:

Отрасль А

коэффициент убытков, комбинированный коэффициент, коэффициент конверсии, эластичность цен, оптимизация цен, перекрестное субсидирование, тариф, структура бизнеса, превышение, претензии по истощению

Отрасль Б

соотношение шансов, гандикап, длинные шансы, андердог, преимущество, букмекерская контора

Отрасль C

книга заказов, арбитраж, короткая позиция, коэффициент Шарпа, средневзвешенная цена по объему, средневзвешенная цена по времени, альфа, бета

Отрасль D

анализ воронок, когортный анализ, сегментация пользователей, анализ удержания, рейтинг кликов, механизм рекомендаций

Промышленность E

геномные, клинические / фенотипические, фармакокинетические и другие молекулярные данные

Они кажутся знакомыми? Сможете ли вы угадать, из какой отрасли происходит каждая группа слов?

Если ответ утвердительный, вы, вероятно, уже имеете некоторый опыт в этой области!

(Прокрутите статью до конца, чтобы узнать, к какой отрасли они относятся.)

Обратите внимание, что Группа A - самый длинный список среди всех. Причина проста: у меня больше опыта в данной отрасли после многих лет работы в ней. 😂

Что ж, это просто жаргоны. Они используются, чтобы заставить вас казаться умным перед людьми за пределами вашей отрасли, или, согласно Оксфордскому словарю, это:

Особые слова или выражения, которые используются в определенной профессии или группе и трудны для понимания другими.

Эти слова действительно трудно понять другим, если только вы не работаете в этой отрасли.

С точки зрения коммуникации, если не считать шуток, мы должны избегать использования жаргона при выступлении перед посторонними или, по крайней мере, сначала дать ему краткое объяснение. Никогда не предполагайте, что люди знают, что они имеют в виду, иначе вы очень быстро потеряете их интерес.

С другой стороны, мы также можем рассматривать жаргон как очень сжатые знания предметной области. Например, за двумя простыми словами «комбинированное соотношение» у нас есть следующие концепции:

  1. Комбинированный коэффициент = коэффициент убытков + коэффициент расходов
  2. Все эти коэффициенты имеют «премию» в качестве общего знаменателя.
  3. Убыток означает претензии
  4. Под расходами понимаются расходы по распределению (комиссия) и операционные расходы (рабочая сила, аренда офиса и т. Д.).
  5. Все эти коэффициенты могут быть рассчитаны для периода андеррайтинга, периода аварии или отчетного периода.
  6. Требования могут быть чистыми или брутто от перестрахования и / или общего возмещения

В Отрасле A эти концепции ежедневно используются людьми в организации (в том числе на руководящих должностях).

Специалисту по данным, который никогда не работал в этой отрасли и не имеет представления об этих концепциях, скорее всего, будет сложно (по крайней мере, поначалу) эффективно работать. Знание этих концепций помогает специалисту по обработке данных:

  • понимать данные
  • понять цель бизнеса
  • задавайте правильные вопросы и разрабатывайте проблему, которую нужно решить
  • эффективно общаться с лицами, принимающими решения, «говоря на их языке»
  • измерить успех прогнозной модели с использованием соответствующих критериев

Вы можете возразить, что соревнования kaggle выигрывали люди как со знанием предметной области, так и без нее.

Если у вас есть знания в предметной области, вы могли бы разработать некоторые конкретные функции, которые имеют отношение к контексту проблемы и получить преимущество над другими.

С другой стороны, вы также можете (а иногда и должны) отказаться от знаний предметной области и принять чистый подход к разработке программного обеспечения и выиграть соревнование, особенно когда данные должны быть анонимными, что предотвратит использование знаний предметной области. Ознакомьтесь с решением победителя, занявшего первое место, в Прогнозе безопасного вождения в Porto Seguro.

Однако я считаю, что стремление к чистому прогнозированию не должно быть единственной целью специалиста по данным.

Наука о данных в kaggle отличается от реального мира. А как насчет определения бизнес-цели? Эффективное общение с лицами, принимающими решения? Понимаете, как собираются данные? Эти вопросы были скрыты от соревнований kaggle, но они очень важны в реальном мире при работе в организации.

Также учтите это. Сейчас большая часть работы по науке о данных связана с навыками разработки программного обеспечения, например чистые навыки настройки гиперпараметров. Через 5–10 лет, с улучшением инфраструктуры машинного обучения и развитием автоматизированного машинного обучения, большая часть тяжелой работы исчезнет.

Отличного специалиста по обработке данных отличает знание предметной области - способность продемонстрировать, что вы знаете отрасль наизнанку, говорите на языке и можете помочь бизнесу достичь поставленной цели, помогая найти правильную бизнес-проблему для решения.

Спрос на эти навыки никуда не денется.

Ответ:

A: страхование; B: ставки; C: количественная торговля D: маркетинг E: геномика