Публикации по теме 'data-engineering'
Руководство для начинающих по созданию первого конвейера сквозного машинного обучения в PySpark
Полезные ресурсы, концепции и уроки для Data Scientist, создающего первый конвейер сквозного машинного обучения в Spark
Когда я понял, что мой обучающий набор включает более 10 миллионов строк в день, первое, что мне пришло в голову, это подвыборка. Однако, когда я начал субдискретизацию, мне было трудно избежать какой-либо предвзятости во время процесса. Именно тогда я подумал о создании модели без субдискретизации с помощью Spark.
Я думал, что в Spark будет не так много вариантов..
Обзор различных подходов к внедрению моделей машинного обучения (ML) в производство
Существуют разные подходы к внедрению моделей в производство, с преимуществами, которые могут варьироваться в зависимости от конкретного варианта использования. Возьмем, к примеру, вариант использования прогнозирования оттока: есть ценность в наличии статического значения, которое можно легко найти, когда кто-то звонит в службу поддержки клиентов, но есть некоторая дополнительная ценность, которую можно получить, если для определенных событий модель может быть повторно запущен с вновь..
5 ролей в данных в 2021 году
Специалисты по обработке данных, аналитики, инженеры по обработке данных и инженеры по машинному обучению. Что они делают?
По данным Всемирного экономического форума, высокая масштабируемость, к 2025 году ожидается, что объем данных, генерируемых каждый день, во всем мире достигнет 463 эксабайт. Это миллиард гигабайт !. Google, Facebook, Microsoft и Amazon хранят не менее 1200 петабайт информации.
Чтобы использовать этот поток данных, специалисты по работе с данными стали..
5 уроков, которые необходимо знать специалистам по данным о переносе моделей в производство
5 уроков, которые необходимо знать специалистам по данным о переносе моделей в производство
Первоначально опубликовано на https://retina.ai/blog/moving-models-to-production/ Мо Мессиди, старшим инженером по операциям с данными в Retina.
В этой статье рассказывается об общих проблемах, с которыми сталкиваются группы по обработке данных при переносе своих моделей из систем разработки в производственные системы, и о том, как этих проблем можно избежать.
Проблема 1: несовпадающие..
Различные вакансии, связанные с индустрией обработки данных
Навыки, обязанности и повседневная жизнь персонала, выполняющего эти должности.
Аналитик данных
Аналитик данных: Аналитик данных интерпретирует данные и превращает их в информацию, которая может предложить способы улучшения бизнеса, тем самым влияя на бизнес-решения. Аналитики данных собирают информацию из различных источников и интерпретируют закономерности и тенденции - поэтому описание должности аналитика данных должно подчеркивать аналитический характер роли. После того, как..
IcoOmen: использование машинного обучения для прогнозирования цен на ICO
Использование машинного обучения на реальных данных.
Вступление
Криптовалюты в представлении не нуждаются. То, что когда-то было зарезервировано для сообществ ботаников на форумах онлайн-чата, теперь почти стало мейнстримом. С другой стороны, ICO менее известны.
Первоначальное предложение монет, обычно называемое ICO или продажей токенов, представляет собой средство сбора средств, при котором токены в недавно выпущенной криптовалюте обмениваются среди общественности на другие..
Как ваш традиционный подход к MI/Warehousing подводит ваши микросервисы
Извиняюсь за кликбейтный заголовок, но это правда. Почему сегодня мы используем микросервисы? Ответ лежит в основе принципов Agile и Lean.
Мы хотели стать лучше в создании программного обеспечения, которое хотят наши клиенты, держа их в центре внимания, принимая соответствующие отзывы, пока не стало слишком поздно. Для этого нам нужно было как можно быстрее выпускать программные продукты. Тонкая вертикальная нарезка наших продуктов, переход от MVP к MVP.
Все в порядке, когда вы..