Честная перспектива реальной жизни

За свою карьеру я провел множество аналитических преобразований, которые позволили организациям перейти в сферу расширенной аналитики и науки о данных. Сюда входят ведущие технические группы и обучение руководителей бизнеса. Довольно распространенный вопрос:

«Это [наука о данных] сложно?»

Я имею образование в количественном отношении и имею квалификацию актуария. Первые годы своей карьеры я провел в «нетрадиционных» актуарных дисциплинах. Затем я попал в сферу данных и аналитики, которая процветала в области цифровых технологий и трансформации технологий.

В мои ранние годы большинство статистических моделей уже было построено. Наша основная ответственность заключалась в том, чтобы обновить допущения и поправочные коэффициенты.

В дальнейшем большинство прогнозных моделей вводят концепцию AutoML (автоматизированное машинное обучение). Это включает в себя автоматический выбор и калибровку модели на основе определенных настроек бизнес-пользователя.

Если все автоматизировано, какова на самом деле роль специалиста по данным? Кроме того, как это могло быть так сложно?

Модельный дизайн

Каждая модель сильно зависит от конфигурации входа. Например, что такое зависимая переменная, какие переменные входного диапазона, нужна ли нам общая или конкретная модель и многое другое.

В то время как AutoML управляет процессом, принятие решений остается за человеком. Затем ожидается, что специалист по анализу данных поймет основную механику, допущения и принципы статистической модели. Это гарантирует, что выбранные модели будут вести себя в соответствии с ожиданиями.

Актуальность для бизнеса

Модели Data Science созданы для решения бизнес-задач. Data Scientist несет ответственность за то, чтобы модели работали в соответствии с бизнес-процессом. Это бизнес-профессия, которая занимается математикой, а не математика, которая занимается бизнесом.

Помимо построения модели, специалисту по данным необходимо пропагандировать и повышать информационную грамотность организаций. Это включает в себя такие области, как прозрачность модели, происхождение данных модели и понимание модели, чтобы повысить надежность данных организации.

Очистка данных

Судя по моему многолетнему опыту, поиск чистых данных является труднодостижимым. Я считаю, что это путешествие, которое требует определенного процесса для постоянного улучшения и интеграции.

Ожидается, что Data Scientist будет играть важную роль в очистке данных. Старая поговорка «90% времени на подготовку данных и 10% на моделирование» по-прежнему остается верной. Согласно моим рассуждениям выше, руководители доверяют аналитикам данных, которые разбираются в бизнесе. Ответственность за конвейер данных лежит на каждом, включая инженеров данных и аналитиков отчетности, которые тоже делают это.

Модель монетизации

Для организаций модель следует рассматривать как актив. Любой актив требует управления и обслуживания. Кроме того, его необходимо использовать для различных сценариев использования, а не только для одноразового использования.

Например, мы создали модель прогнозирования ухода клиентов для одного из моих предыдущих клиентов. Помимо выявления клиентов, подверженных риску, мы также использовали это для сегментации взаимодействия с клиентами и в качестве входных данных для карты оценки кредитного риска. Создание одного и повторное использование многих приведет к более высокой рентабельности инвестиций для любого актива, что будет способствовать большему количеству вариантов использования для разработки других моделей.

«Сложна ли наука о данных?»

Специалист по анализу данных должен хорошо разбираться в математике, бизнесе и технологиях. Тем, кто думает, что твердой количественной оценки достаточно, будет сложно добиться успеха в коммерческой среде. Те, у кого есть правильный фокус, смогут принять участие в путешествии по науке о данных и пригласить с собой других.

Ознакомьтесь с другими моими статьями, если хотите узнать больше о практических и эффективных темах анализа данных. Если у вас есть дополнительные вопросы или предложения по темам, не стесняйтесь связываться и писать сообщения через LinkedIn.

Об авторе: Альберт Сурьяди - признанный лидер в предоставлении возможностей расширенной аналитики и обработки данных в голубых фишках. Он признан лидером Analytics CoP (Community of Practice), который вдохновляет и мотивирует других за пределами существующего положения.