Помимо часто цитируемого «программное обеспечение пожирает мир», возможно, нет более популярного трюизма в технологической индустрии, чем «данные - это новая нефть». Чтобы принимать оптимальные бизнес-решения, компании должны иметь доступ к метрикам и аналитическим данным, которые полностью используют имеющиеся у них данные. Бизнес, который не понимает важности данных, останется позади.

Проблема, конечно же, в исполнении. В любом современном бизнесе потоки данных поступают из разных мест. Заказы, просмотры страниц, отгрузки, подписчики по электронной почте - все эти цифры должны что-то значить - и они значат, но как лучше это понять?

Задача специалистов по обработке данных - прояснить всю эту информацию - организовать и проанализировать ее так, чтобы она приводила к достижимым целям. Как в древние времена оракулы пытались предугадать будущее по внутренностям животных, так и специалисты по данным, используя анализ данных и машинное обучение, протыкают данные организации, чтобы получить информацию, которая приведет к лучшим результатам для бизнеса.

Данные также означают ответственное управление. Компания должна обеспечивать конфиденциальность своих пользователей и защиту их данных. В конце концов, пользователи выигрывают - четкое понимание данных означает лучший пользовательский опыт.

В этом разговоре я поговорил с главным системным инженером Trust & Will Джозефом «Гусьем» Аранесом. Гусь - штатный мастер данных компании, программист на все руки, обладающий обширным опытом работы во всех аспектах программного обеспечения, от администрирования баз данных до контроля качества. Вклад Гуся в развитие компании трудно переоценить. В качестве основного архитектора облачной инфраструктуры приложения Гусь вместе с Эриком Урхаузеном, руководителем отдела разработки, заложили основу для быстрого и современного приложения SAAS. Но Гусь не из тех, кто почивает на лаврах. В прошлом году он был сосредоточен на одном: данных.

Фон на основе данных

Интерес Гуся к данным вырос из его опыта работы в сфере стартапов. В технологической компании Sweet Labs из Сан-Диего Гусь работал инженером по интеграции. Именно здесь он впервые начал отслеживать и измерять данные своих интеграций, чтобы увидеть, как они работают.

«Мы измеряли так много переменных и точек данных и отслеживали данные по странам, операционным системам, издателям и рекламодателям. Я начал изучать визуализации с помощью Google Charts, где мне удалось успешно отобразить их в веб-приложении ».

Увлеченный информацией, которую он смог найти, Гусь начал обучать себя аналитике данных, используя видео на YouTube, статьи о данных - все, что он мог достать.

В январе 2019 года Гусь присоединился к Trust & Will в качестве старшего инженера-программиста, сначала работая над бэкэндом и разработкой. Через несколько месяцев после настройки облачной инфраструктуры на AWS Гузу было любопытно посмотреть, как работают функции, которые он создал в приложении. Он начал копаться в базе данных и запрашивать информацию. Это означало бы начало Big Data в Trust & Will, когда Гусь облачился в неофициальную шляпу того, кого он называет «специалистом по данным» - роль, которая в равной степени является специалистом по данным и инженером по данным.

Важность данных

Вначале Гусь определил три основные причины для реализации более конкретной стратегии данных.

Первым было понимание того, кто покупает продукты Trust & Will и почему они это делают. «Данные важны для нас, чтобы определить нашу целевую аудиторию. Хотим ли мы уделять время людям, которым не интересен наш продукт?

Во-вторых, улучшилось отслеживание доходов.

В-третьих, Goose хотел иметь возможность прогнозировать трафик, чтобы масштабировать нагрузку на сервер. «Допустим, завтра к нам придут 40–50 тысяч человек из-за маркетингового продвижения, нам нужно убедиться, что мы масштабируем наши серверы, чтобы справиться с этим».

Гусь подчеркивает важность целеустремленности. Для стартапов с небольшим бюджетом, которые хотят использовать аналитические данные для роста, он советует сузить круг вопросов и определить четкую цель.

«Нам нужно определить, какова цель и как ее достичь с помощью данных. Наличие определенной цели определит, какую задачу с данными необходимо выполнить и сколько потратить. Вы можете собрать и визуализировать столько, сколько сможете, но если это не достигает вашей цели, значит, что-то не так. Любая цель должна быть измеримой ».

Строительство фундамента

Гусь не был удовлетворен тем, как Trust & Will использовала собираемые данные. «Мы никогда по-настоящему не анализировали, почему результат был тем или иным». Он хотел, чтобы компания стала больше ориентироваться на данные.

Чтобы лучше понять клиентов Trust & Will, Goose начал внедрять сбор данных сеанса. Использование Google Analytics также имело ключевое значение для регистрации событий кликов, переходов, типов браузеров и трафика - всего необходимого для понимания того, кто были клиентами и откуда они пришли.

Сбор и анализ данных начался довольно просто с Goose извлечения и визуализации данных из базы данных MySQL приложения. Но когда возникла потребность в лучшем понимании, Гусь начал думать о более сложном подходе.

Стек данных о доверии и воле

Масштабная инженерия данных - сложный танец, в котором участвует множество игроков. Заинтересованные стороны - от маркетинга до успеха участников и высшего руководства - все должны играть определенную роль в сборе и использовании данных. Trust & Will также первоначально заключила контракт со сторонним поставщиком Data Science для анализа данных.

Первым шагом к любой стратегии обработки данных является сбор информации из нескольких источников, включая базы данных Google Analytics, Heap и SQL.

Информация на этом этапе необработанная. Его необходимо преобразовать или «обработать» до формата, который специалисты по данным могут использовать для своего анализа.

Собранная информация затем «загружается» с помощью таких сервисов, как FiveTran, которые помогают перемещать все эти данные из одного места в другое.

Эти данные попадают в хранилище данных на Amazon Redshift. Из хранилища специалисты по обработке данных могут получить доступ к данным и превратить их во что-то съедобное для непрофессионала и полезное для руководителей.

Гусь использует Tableau для визуализации данных и предпочитает программировать на Python, который он называет своим «любимым оружием», который считается стандартом для анализа данных и машинного обучения из-за поддержки соответствующих библиотек.

Этот процесс, называемый ETL (извлечение, передача и загрузка), является основой любого стека данных.

Конечно, конфиденциальность имеет первостепенное значение, и все это делается с соблюдением конфиденциальности пользователей. «Когда мы отправляем данные третьей стороне - мы не отправляем идентифицирующие данные. Все это анонимно и не может быть отслежено до конкретного пользователя ».

Видение данных - лучший пользовательский опыт

По мере роста компании Гусь видит большой потенциал для данных в Trust & Will, включая возможность делать кое-какие новые интересные вещи.

Его больше всего волнует перспектива использования машинного обучения для персонализации приложения для разных типов клиентов, предоставляя им индивидуальный пользовательский интерфейс - возможно, с помощью ИИ-бота, который может держать их за руку в процессе так же умело, как и человек. .

«В конечном итоге мы хотим предоставить нашим клиентам фантастический опыт, и данные - один из способов, которым мы это делаем».