Узнайте о новом подходе DataOps, необходимом для поддержки усилий по машинному обучению

Добро пожаловать во вторую часть нашей мини-серии Окончательный отчет об операциях с данными за 2018 год! Каждый год мы берем отчет и разбиваем его на мини-серию блогов, чтобы лучше понять каждый раздел отчета. На этой неделе мы обсуждаем структуры групп данных и необходимость найма в DataOps для поддержки машинного обучения и искусственного интеллекта.

Об опросе

Каждый год Nexla опрашивает сотни специалистов по обработке данных, чтобы оценить текущее состояние DataOps. В этом году опрос, проведенный исследовательской платформой для руководителей Pulse Q&A, опросил 266 ИТ-специалистов и специалистов по обработке данных, включая аналитиков, специалистов по обработке данных, инженеров по обработке данных и руководителей. В число респондентов вошли профессионалы из более чем 25 различных отраслей, в том числе люди, работающие в технологических компаниях, а также в электронной коммерции, рекламе, финансах и многом другом. Респонденты опроса обладали широким опытом работы - от новичков до специалистов по данным более 10 лет и представляли компании любого размера - от менее 50 сотрудников до более 10 000 сотрудников. Опрос проводился с 3 по 21 мая 2018 г.

Быстрый снимок:

  • 85% компаний работают над машинным обучением или искусственным интеллектом. Это на 15 процентных пунктов выше прошлогодних 70%.
  • 50% специалистов по данным утверждают, что внутренних ресурсов данных недостаточно для поддержки этого роста. В среднем на каждые 5 пользователей внешних данных приходится только 1 инженер по обработке данных. Мы определяем «интерфейсных» пользователей как тех, кому нужно извлекать пользу из данных - аналитиков, специалистов по данным и т.п.
  • 18% времени инженера уходит на устранение неполадок (это 9,3 недели в году).
  • Компании осознают необходимость инвестировать в человеческую сторону данных - 73% планируют нанять в DataOps в течение следующего года, чтобы продолжать стимулировать машинное обучение и искусственный интеллект.

Машинное обучение и захват искусственного интеллекта

Почти все специалисты по данным сообщают, что их компания работает над машинным обучением и искусственным интеллектом. Это значительно (на целых 15 процентных пунктов) по сравнению с 2017 годом, когда «только» 70% респондентов сообщили, что их компании работают над машинным обучением или искусственным интеллектом.

Мы хотели понять, какое внимание уделяется машинному обучению и искусственному интеллекту для групп данных. Этот рост до 85% компаний, работающих над машинным обучением или искусственным интеллектом, означает, что только отстающим или последним 15% осталось внедрить машинное обучение.

Развитие машинного обучения и искусственного интеллекта

Создание и масштабирование моделей машинного обучения или моделей искусственного интеллекта - нелегкая задача. На это могут потребоваться недели или месяцы времени специалиста по обработке данных. В сочетании с непрерывными задачами по поддержке конвейеров данных, устранением возникающих проблем и традиционными задачами ETL для поддержки пользователей внешних данных, список дел для профессионалов в области данных бесконечен.

Мы спросили специалистов по данным, считают ли они, что существует достаточно внутренних ресурсов и инженеров по обработке данных для поддержки потребностей в данных и внешних пользователей. 50% сказали нет - серверных ресурсов недостаточно для удовлетворения потребностей компании в данных. Неудивительно, что респонденты, у которых во фронтенд-команде было больше людей, с большей вероятностью считали, что у них недостаточно ресурсов.

Команда, создавшая волшебство машинного обучения

Чтобы лучше понять текущее состояние распределения ресурсов данных, мы спросили специалистов по данным о размере их групп обработки данных. Они рассказали нам, со сколькими «интерфейсными» пользователями данных, такими как аналитики, специалисты по данным и бизнес-пользователи, они работали, а также сколько «серверных» пользователей или пользователей данных в команде.

Исследование показало, что 37% компаний имеют более 50 пользователей внешнего интерфейса, в то время как почти половина всех компаний (44%) имеет от 5 до 49 пользователей внешнего интерфейса. Отвечая на вопрос о производителях серверных данных, только 26% компаний ответили, что у них более 20 внутренних пользователей, а у 43% компаний есть от 2 до 10 производителей серверных данных.

Подсчитав результаты еще немного, мы обнаружили, что в среднем в группе данных есть 1 бэкэнд-инженер на каждые 5 фронтенд-профессионалов, которым необходимо использовать данные. Конечно, есть выбросы с минимальным соотношением 0,5 (или два backend-инженера на каждого фронтенд-специалиста) и максимальным соотношением 29. Это 29 пользователей данных внешнего интерфейса на каждого backend-инженера - соотношение, которое вряд ли будет устойчивым.

Более благоприятные соотношения наблюдаются в небольших командах, где меньше 10 пользователей внешнего интерфейса. Похоже, что даже в самых маленьких командах есть минимум 1–5 инженеров по обработке данных. Но по мере роста пользователей внешнего интерфейса соотношение увеличивается, потому что разработка данных не масштабируется так быстро.

Наличие достаточного количества внутренних ресурсов критически важно для минимизации и поддержания очереди разработки. Как вы понимаете, чем больше внешних пользователей запрашивают данные для выполнения своей работы, тем больше работы накапливается у инженеров серверных данных. При том, что в среднем на каждые 5 пользователей внешних данных приходится только 1 производитель серверных данных, поддерживать рабочие нагрузки становится все труднее. Разрешение DataOps автоматизировать и контролировать определенные задачи может немедленно облегчить рабочую нагрузку внутреннего источника данных.

Как повысить эффективность работы групп данных: нанять в DataOps

В среднем инженер по обработке данных тратит 18% своего времени на устранение неполадок и устранение проблем, связанных с данными. Это целый день в неделю и 9,3 недели в году. Умножьте это на количество инженеров в вашей команде, и вы получите результат - быстро. На что еще инженер мог потратить это время?

DataOps управляет данными от источника до значения, создавая масштабируемые, воспроизводимые и предсказуемые потоки данных для инженеров по обработке данных, специалистов по обработке данных и бизнес-пользователей. Благодаря этому предсказуемому потоку профессионалы в области данных получают больше времени, чтобы сосредоточиться на том, на что им действительно следует тратить время, включая цели машинного обучения и искусственного интеллекта. Поэтому неудивительно, что большинство респондентов сообщили, что их компании планируют нанять в DataOps в следующие 12 месяцев.

Изучив 73% респондентов, которые заявили, что планируют нанять, две трети ответили, что не думают, что у них достаточно внутренних ресурсов. Кажется, что предполагаемая нехватка внутренних ресурсов является спусковым крючком для инвестиций в DataOps, что имеет интуитивный смысл.

Максимальное использование времени и ресурсов имеет решающее значение для обеспечения успеха с машинным обучением и искусственным интеллектом. Но инструменты и технологии могут помочь вам только в том случае, если ваша команда не имеет достаточных ресурсов и перегружена работой. Создание устойчивых команд с масштабируемыми и повторяемыми процессами гарантирует долгосрочный успех любой бизнес-цели, особенно с учетом роста машинного обучения и усилий в области ИИ. Работодатели начинают понимать важность инвестирования в человеческую сторону данных. DataOps - это не только люди, но и инструменты и процессы.

Следите за новостями, чтобы узнать больше о данных DataOps по результатам опроса 2018 года! Вы можете скачать окончательный отчет об операциях с данными за 2018 год здесь.

Хотите краткий обзор отчета? Смотрите здесь.

Спасибо за внимание. Если вам понравился этот пост, подумайте, пожалуйста, аплодисменты или поделитесь.