Публикации по теме 'data-engineering'


Руководство для начинающих по созданию первого конвейера сквозного машинного обучения в PySpark
Полезные ресурсы, концепции и уроки для Data Scientist, создающего первый конвейер сквозного машинного обучения в Spark Когда я понял, что мой обучающий набор включает более 10 миллионов строк в день, первое, что мне пришло в голову, это подвыборка. Однако, когда я начал субдискретизацию, мне было трудно избежать какой-либо предвзятости во время процесса. Именно тогда я подумал о создании модели без субдискретизации с помощью Spark. Я думал, что в Spark будет не так много вариантов..

Обзор различных подходов к внедрению моделей машинного обучения (ML) в производство
Существуют разные подходы к внедрению моделей в производство, с преимуществами, которые могут варьироваться в зависимости от конкретного варианта использования. Возьмем, к примеру, вариант использования прогнозирования оттока: есть ценность в наличии статического значения, которое можно легко найти, когда кто-то звонит в службу поддержки клиентов, но есть некоторая дополнительная ценность, которую можно получить, если для определенных событий модель может быть повторно запущен с вновь..

5 ролей в данных в 2021 году
Специалисты по обработке данных, аналитики, инженеры по обработке данных и инженеры по машинному обучению. Что они делают? По данным Всемирного экономического форума, высокая масштабируемость, к 2025 году ожидается, что объем данных, генерируемых каждый день, во всем мире достигнет 463 эксабайт. Это миллиард гигабайт !. Google, Facebook, Microsoft и Amazon хранят не менее 1200 петабайт информации. Чтобы использовать этот поток данных, специалисты по работе с данными стали..

5 уроков, которые необходимо знать специалистам по данным о переносе моделей в производство
5 уроков, которые необходимо знать специалистам по данным о переносе моделей в производство Первоначально опубликовано на https://retina.ai/blog/moving-models-to-production/ Мо Мессиди, старшим инженером по операциям с данными в Retina. В этой статье рассказывается об общих проблемах, с которыми сталкиваются группы по обработке данных при переносе своих моделей из систем разработки в производственные системы, и о том, как этих проблем можно избежать. Проблема 1: несовпадающие..

Различные вакансии, связанные с индустрией обработки данных
Навыки, обязанности и повседневная жизнь персонала, выполняющего эти должности. Аналитик данных Аналитик данных: Аналитик данных интерпретирует данные и превращает их в информацию, которая может предложить способы улучшения бизнеса, тем самым влияя на бизнес-решения. Аналитики данных собирают информацию из различных источников и интерпретируют закономерности и тенденции - поэтому описание должности аналитика данных должно подчеркивать аналитический характер роли. После того, как..

IcoOmen: использование машинного обучения для прогнозирования цен на ICO
Использование машинного обучения на реальных данных. Вступление Криптовалюты в представлении не нуждаются. То, что когда-то было зарезервировано для сообществ ботаников на форумах онлайн-чата, теперь почти стало мейнстримом. С другой стороны, ICO менее известны. Первоначальное предложение монет, обычно называемое ICO или продажей токенов, представляет собой средство сбора средств, при котором токены в недавно выпущенной криптовалюте обмениваются среди общественности на другие..

Как ваш традиционный подход к MI/Warehousing подводит ваши микросервисы
Извиняюсь за кликбейтный заголовок, но это правда. Почему сегодня мы используем микросервисы? Ответ лежит в основе принципов Agile и Lean. Мы хотели стать лучше в создании программного обеспечения, которое хотят наши клиенты, держа их в центре внимания, принимая соответствующие отзывы, пока не стало слишком поздно. Для этого нам нужно было как можно быстрее выпускать программные продукты. Тонкая вертикальная нарезка наших продуктов, переход от MVP к MVP. Все в порядке, когда вы..