Публикации по теме 'data-engineering'


Данные в реальном времени в Apache Druid - выбор правильной стратегии
Почему вы должны использовать индексирование Kafka вместо Tranquility Хранение данных в потоках данных в реальном времени всегда было проблемой. Решение зависит от ваших вариантов использования. Если вы хотите хранить данные для ежедневной или ежемесячной аналитики, вы можете использовать распределенную файловую систему и запускать Hive или Presto поверх нее. Если вы собираетесь запустить простую аналитику в реальном времени, вы можете сохранить последние данные в Elasticsearch..

Что такое данные: руководство для начинающих.
Что такое данные: руководство для начинающих по пониманию того, что означают данные. Введение Вы, вероятно, несколько раз слышали слово "данные" , возможно, в школе, из новостей, в своей повседневной работе или профессии, пару раз натыкались на него в Интернете или где-либо еще, где бы вы ни находились. и если вы специалист по данным, то вся ваша профессия зависит от этого. Данные безграничны и присутствуют в любой точке Вселенной, однако использование термина «данные» иногда..

Что я изучал, чтобы стать Data Scientist и Engineer?
Я получил степень бакалавра в области науки о данных и инженерии в Политехническом университете Каталонии (UPC), и это то, что я изучал. Когда пришло время выбрать область обучения, к которой я хотел присоединиться в университете, я не знал, что изучать, как и большинство людей, но я слышал, что начинается новая степень, наука о данных и инженерия? Да, степень с большим количеством уроков о современных методах машинного обучения научит меня стать хорошим профессионалом в этой области...

Сжатие данных: сравнение популярных алгоритмов
Сжатие данных: сравнение популярных алгоритмов Алгоритмы сжатия используются для уменьшения размера файлов данных, что упрощает их хранение и передачу. Существует множество различных алгоритмов сжатия, каждый из которых имеет свои преимущества и недостатки. В этой статье мы сравним несколько популярных алгоритмов сжатия и приведем список плюсов и минусов каждого из них. Кодирование Хаффмана Плюсы: Очень эффективен при сжатии данных с большим количеством избыточности, таких как..

Проблемы с данными-ML-(часть II)
В своей предыдущей статье я говорил о Количество данных как о реальной проблеме, с которой сталкиваются многие инженеры машинного обучения. В этой статье мы перейдем к следующей оси, охватывающей другую проблему, связанную с данными, но прежде чем двигаться дальше, я предлагаю вам прочитать мои предыдущие статьи , чтобы получить полное представление о том, о чем я говорю, и продолжайте свое путешествие по ML правильно через эту серию (порядок идет снизу вверх),..

10 лучших книг по инженерии данных в формате pdf
Эй🙌 вы устали искать книги по инженерии данных 🤔? Если да, то вы попали в нужное место. Мы поговорим о 10 лучших книгах по Data Engineering. Книги считаются более точными , более точными и объективными по сравнению с видео. С другой стороны, видео, блоги — это более эффективные и удобные варианты. «Цель состоит в том, чтобы превратить данные в информацию, а информацию — в понимание». Карли Фиорина Итак, зачем ждать? Давайте рассмотрим 10 лучших книг по инженерии данных..

Использование неконтролируемого и контролируемого обучения для сегментации клиентов и прогнозного анализа для…
Отчет о сегментации клиентов Arvato Financial Services Введение Этот пост подготовлен в сотрудничестве с Arvato, компанией по доставке товаров по почте в Бертельсманне, Германия, что является частью выполнения Udacity DataScience NanoDegree. Проанализированные здесь наборы данных предоставлены Arvato Analytics . В этом проекте используются методы обучения без учителя и с учителем для анализа демографических данных общего населения и демографических данных клиентов для прогнозирования..