Павел из Кебула, Сингапур, беседует с Адамом Вотава, основателем компании aLook Analytics, занимающейся наукой о данных, об аналитике, науке о данных и визуализации данных, жизни в качестве цифрового кочевника и данных как наиболее ценном активе для компаний.

"Данные важнее алгоритмов".

К.: Адам, расскажите нам об aLook Analytics.

О: Мы молодая и довольно новая команда консультантов по науке о данных с деловым подходом. Мы работаем с клиентами из разных отраслей и специализируемся на небольших компаниях (читай меньше, чем Fortune 1000). Мы не ограничиваем себя какой-либо вертикалью, потому что верим в возможность переноса опыта из разных сред. То, что мы делаем для клиента в сфере электронной коммерции, может быть по-другому использовано для клиента в производстве с неожиданными преимуществами.

К.: Каким был ваш путь в качестве главного специалиста по обработке и анализу данных и каков ваш опыт?

О: Я одновременно изучал право и статистику в техническом университете. Первоначально я присоединился к юридической фирме, очень быстро поняв, что это не так. Я перешел в крупный банк, начав со стажера в команде по интеллектуальному анализу данных, и за 6 лет работы я вырос до должности менеджера группы по анализу данных. Затем у моей жены появилась возможность переехать в Токио, а я начал играть с идеей открытия собственного бизнеса.

K: Вы живете и работаете в Японии. Где находятся ваши клиенты?

Ответ: Всему виной наш образ жизни. Мы хотим быть гибкими в нашей жизни, и я хочу посвятить время моему самому большому и очень трудоемкому хобби — триатлону Ironman. Мы в Японии ненадолго, поэтому у нас там не очень большая сеть. Сегодня у нас есть клиенты в Европе и в Африке. Наша команда очень распределена, у нас есть люди как в Чехии, так и в Эквадоре.

K: Кебула работает очень похоже в регионе APAC. Преимущества вполне очевидны, но мне любопытно, есть ли у такого способа работы какие-либо отрицательные стороны?

О: Это сложно, но оно того стоит. Вся наша работа выполняется онлайн, и мы работаем в нескольких часовых поясах, поэтому мы должны быть там, когда наши клиенты нуждаются в нас, что требует определенной гибкости с нашей стороны.
Второй аспект этого заключается в том, чтобы быть на 100% онлайн, и, как очень молодая компания, мы должны убедиться, что мы делаем абсолютно звездную работу, чтобы завоевать доверие наших клиентов. Мы небольшие, поэтому мы можем работать в основном по маркетингу из уст в уста и личным рекомендациям наших клиентов.

K: Я хотел бы остаться в Японии на некоторое время, скажите мне, как вы находите там рынок науки о данных? Япония очень закрытый рынок. Чем она отличается от Европы?

О: Самым поразительным преимуществом японских специалистов по данным является то, что они очень хорошо разбираются в технике. Они очень хорошо знают свои инструменты, они фантастические программисты. С другой стороны, они не ориентированы на бизнес, им не хватает определенной ловкости, творчества, быстрого мышления и импровизации. Они также кажутся довольно далекими от самого бизнеса. Резюмируя: мастерство отличное, качество поставляемой продукции превосходное, но редко встретишь инновационный подход.

K: Какой квалификацией должен обладать человек, интересующийся наукой о данных? Статистика и математика важнее программирования?

О: Когда мы ищем специалистов по данным, технические требования, конечно же, включают в себя практические знания инструментов анализа данных и статистического программного обеспечения, а также умение кодировать и опыт работы с алгоритмами машинного обучения. Однако, что еще более важно, так это желание учиться новому, потому что мы действительно работаем с клиентами из разных отраслей.

Техническое образование является плюсом, поскольку мы чаще всего работаем с инструментами с открытым исходным кодом, такими как Python или R, которым люди могут научиться еще в школе. Этот набор инструментов отлично подходит для многих небольших компаний, которые, например, не могут позволить себе купить IBM Modeler. Другими действительно важными навыками являются подготовка и визуализация данных.

К.: Вернемся к подготовке данных. Одной из наблюдаемых нами тенденций является рост спроса на услуги по обработке и анализу данных. Как вы думаете, куда это пойдет?

О: На мой взгляд, в долгосрочной перспективе только крупные компании смогут нанимать специалистов по данным на полный рабочий день, потому что только крупные смогут создать среду, в которой специалистам по данным не будет скучно. Я вижу большой потенциал для небольших компаний, работающих по требованию, в таких компаниях, как aLook.

Интересным поведением является недоверие к руководству во многих организациях, основанное на непонимании и сложности науки о данных. Это становится проще, когда вы общаетесь с бизнесом в условиях чрезвычайно высокой конкуренции или бурных изменений на рынке. Я бы провел аналогию. Если вас срочно доставят в отделение неотложной помощи, вас не будет волновать понимание процедур, имен и квалификации всех врачей, вы просто хотите, чтобы вам спасли жизнь. То же самое относится и к экстремальным рыночным ситуациям для применения науки о данных.

К. А как насчет использования науки о данных в небольших компаниях?

О: Должен сказать, что в небольших компаниях легче использовать весь потенциал науки о данных, поскольку процесс, принятие решений и политический климат обычно проще. Они также, как правило, готовы пойти на риск, поскольку крупной корпорации, по-видимому, всегда есть что терять.
Позвольте мне уточнить, я не рассматриваю компании как маленькие или большие в зависимости от количества сотрудников, а скорее от размера объема и разнообразия их данных. Небольшие компании меньше беспокоятся об облаке и могут использовать новые и перспективные технологии, что дает преимущество в более быстрой окупаемости. Я дойду до того, что скажу, что для малых и начинающих предприятий электронной коммерции данные в облаке являются их единственным ценным активом.

К. Измерение качества в науке о данных — непростая задача для большинства деловых людей или экспертов в предметной области, не связанных с наукой о данных. Как мы можем сделать это? Есть ли что-то еще, кроме мифической рентабельности инвестиций?

О: Я понимаю науку о данных как статистику, применяемую в бизнесе. Вы можете измерить качество модели, качество прогноза, достигнутую вероятность или с моделями самообучения, которые вам необходимо вовремя оценить, чтобы вы увидели, что модель не учится «плохим вещам».

Деловые люди обычно не понимают этого, поэтому вы должны просто продемонстрировать, что на основе информации, которую вы или ваша модель предоставляете, они могут принимать лучшие решения, чем вчера.

Идеальный заинтересованный бизнес понимает, что в данных содержится больше информации, чем у него есть, и это может помочь ему принимать более эффективные решения в масштабе.

К. Каковы предварительные условия для выполнения этой работы?

Для того, чтобы наука о данных работала, у вас есть три ключевые роли в этом процессе, я называю это «святой троицей данных», без которых она не будет работать. Во-первых, вам нужен кто-то, кто знает предметную область и понимает, что нужно бизнесу, во-вторых, вам нужен кто-то, кто может создавать модели науки о данных, и, наконец, кто-то, кто «владеет» и понимает сами данные и может подготовить их в желаемую форму и форма.

Обычно мы работаем таким образом, что выступаем в роли эксперта по науке о данных и работаем с владельцем бизнес-проблемы и кем-то, кто управляет и консолидирует сами данные на платформе Keboola Connection или в другой среде.

К.: Я хочу поднять шумиху вокруг «БОЛЬШИХ ДАННЫХ». Все дело в петабайтах или, возможно, размер данных и их потенциальная полезность для организации находятся в обратной зависимости?

О: С точки зрения науки о данных это довольно просто. Качество и производительность наших моделей напрямую связаны с качеством исходных данных, а качество не имеет ничего общего с размером. Если мы сможем добавить в решение более разнообразные наборы данных, мы по определению улучшим процесс принятия решений и получим более точную и более эффективную модель.

К. Можете привести пример?

О: Обычно, когда мы создавали модели склонности в банке, чтобы выяснить, какая группа наших клиентов с большей вероятностью будет заинтересована в новом продукте, мы работали с доступными нам данными. Основные демографические данные, а также история прошлых покупок. Эти модели могли бы стать лучше, если бы мы могли моделировать другие функции, например, поведение в Интернете, понимание того, на какую рекламу они нажимают, какой тип контента им интересно читать и т. д. Затем все это будет принято во внимание и будет способствовать лучшему исполнительские модели. По сути, речь идет о разрушении функциональных бункеров и возможности получать более релевантные данные из разных источников.

K: Подготовка данных и гигиена данных — это то, о чем мы в Keboola говорим ежедневно. Что думают об этом специалисты по данным?

A: О, подготовка данных имеет фундаментальное значение. Когда я ранее упоминал «святую троицу данных», это действительно полезно, когда новые клиенты уже имеют свои данные в хорошем состоянии и готовы к анализу. Это очень важно, потому что для науки о данных вам нужна другая структура данных, чем для отчетности. Я не имею в виду только необработанные и агрегированные данные, я имею в виду, что вам не нужно возвращаться к источнику данных и проверять правильность данных. В идеале у клиента есть кто-то, кто разбирается в данных, специалисты по данным или у него есть прозрачная платформа интеграции данных, такая как Keboola Connection. Это сильно влияет на то, насколько быстро мы можем выполнять свою работу. А время - деньги.

К. Это норма?

О: Вовсе нет. Худший пример, и на самом деле очень распространенный, — это компания, в которой данные разбросаны по разным хранилищам и хранилищам данных или даже источникам данных напрямую, без какой-либо структурированной интеграции.

К. Считаете ли вы интеграцию данных важной функцией ИТ-структуры организации?

О: Каждый день я вижу, что «паралич данных» касается не только размера набора данных, но и разнообразия источников данных и неспособности ИТ-отдела интегрировать эти новые источники данных на лету. Количество источников данных постоянно растет, с каждым годом появляются новые рекламные платформы и инструменты измерения. Так что да, интеграция данных как часть сферы ИТ становится все более важной для того, чтобы деловые люди могли выполнять свою работу.

К. aLook Analytics является партнером Keboola. Я обычно описываю ваше предложение как науку о данных как услугу. Вы отождествляете себя с этим?

A: Да, это хороший способ выразить это. Что мы действительно делаем, так это пытаемся использовать возможности для науки о данных в компаниях среднего размера и стартапах. Мы часто видим, как компании нанимают серьезных специалистов по данным и хоронят их в рутинных отчетах. Как правило, это быстро приводит к тому, что специалист чувствует себя недооцененным в плане навыков и вскоре уходит. Мы решаем эту проблему с предложением по требованию.

К.: Сейчас мы работаем над проектом интеграции данных для клиентов электронной коммерции. На первом этапе мы помогаем им интегрировать все важные данные в одном месте и автоматизировать отчетность. Какими могут быть первые две вещи, в которых может помочь наука о данных?

О: Предполагая, что существует какой-то уровень персонализированного маркетинга (например, система рекомендаций или прямые кампании), я бы определенно сначала попытался оценить эффективность маркетинговых каналов и их влияние с помощью алгоритмической многоканальной атрибуции и использовать ее расширение, которое было бы интеллектуальным бюджетом. распределение на основе предыдущих с учетом целей продаж. Маркетинг, как правило, является самой большой статьей расходов в электронной коммерции, поэтому очень хорошо начать с того, чтобы убедиться, что деньги потрачены правильно.

К. Что-нибудь еще?

A: В настоящее время я играю с модулем динамического ценообразования, который будет развернут в аналогичном сценарии, предполагая, что магазин работает с большим количеством SKU. Когда это число достигает сотен, такая техника может помочь в логистике и правильно установить цены в зависимости от того, сколько запасов необходимо переместить, опять же на основе данных и автоматизированного принятия решений.

K: В последнее время мы также наблюдаем распространение бизнес-модели, основанной на подписке, будь то бизнес, основанный на приложениях, или программное обеспечение как услуга. Какую немедленную пользу может принести здесь наука о данных?

О: Самый очевидный пример: когда компания тратит значительную сумму денег на привлечение клиентов, ей необходимо удерживать своих клиентов как можно дольше, чтобы они могли вернуть деньги и получить прибыль. Алгоритмы прогнозирования оттока могут быть развернуты здесь, чтобы предоставить командам по взаимодействию с клиентами красные флажки для клиентов, которые проявляют признаки вероятности ухода из службы и могут действовать в соответствии с этим, чтобы попытаться отменить действие.

К. Если кто-то хочет узнать больше о науке о данных или о том, как вы можете помочь его бизнесу, как лучше с ним связаться?

О: Лучше всего начать с нашего веб-сайта или связаться со мной по электронной почте [email protected].

K: Спасибо, Адам, за беседу. Мы с нетерпением ждем наших совместных проектов в Азии.