Публикации по теме 'data-engineering'


Подходит ли вам инженерия данных? — Быстрый тест, чтобы узнать!
Инженерии данных, как и науке о данных, в последние годы уделяется много внимания, и спрос никуда не денется в ближайшее время. Либо вас интересует поле данных из-за зарплаты, возможностей гибридной или удаленной работы, либо вы просто ищете что-то новое; Задавались ли вы вопросом, подходит ли вам Data Engineering? Будете ли вы сожалеть о тяжелой работе, чтобы получить эту роль? Я, конечно, задавал себе эти вопросы и изо всех сил пытался найти ответ, поэтому решил помочь всем, кто..

Что такое dbt (инструмент построения данных)
Нежное введение в dbt, который захватывает мир данных dbt, или d ata b uild t ool, — это инструмент командной строки с открытым исходным кодом, который помогает организациям создавать, тестировать и поддерживать свои инфраструктура данных. Этот инструмент предназначен для того, чтобы упростить работу с данными для аналитиков данных и инженеров, предоставляя последовательный и стандартизированный подход к преобразованию и анализу данных. dbt позволяет пользователям определять свои..

Преобразование венчурного капитала с помощью машинного обучения и событийной архитектуры
Каждый день создаются тысячи стартапов, и проанализировать их все невозможно. Motherbrain оспаривает это предположение. Это платформа, которая использует данные и машинное обучение для прогнозирования лучших стартапов для инвестиций среди 50 миллионов компаний по всему миру. На нашей последней встрече Heroes of Data к нам присоединились Dhiana Deva и Ylva Lundegård , которые показали нам, как EQT разработала Motherbrain для поиска иголок в стоге сена. Heroes of Data — это..

Надежные данные и искусственный интеллект в облаке: вопросы и ответы с Матей Захария из Databricks
Интервью с Матей Захария обо всем, что касается искусственного интеллекта, облака и надежности данных Одно дело сказать, что ваша компания управляется данными. Другое дело - извлекать значимые выводы из своих данных. Просто спросите Матей Захария , оригинального создателя Apache Spark . С момента его первоначального выпуска в 2010 году Matei и U.C. AMPLab от Berkeley, Apache Spark превратился в одну из ведущих в мире платформ кластерных вычислений с открытым исходным кодом,..

Раскрытие возможностей Python: 15 основных функций, которые вам нужно знать
Привет! Меня зовут Гейб, и я увлечен обучением других Python и машинному обучению. Как аналитик данных и эксперт по визуализации с более чем десятилетним опытом, я имел честь воочию убедиться в невероятной мощи Python. Сегодня я хочу поделиться с вами 15 самыми полезными функциями Python, которые стали незаменимыми инструментами в моих ежедневных приключениях по программированию. Раздел 1: Исследование глубин с len() Когда я погружаюсь в безбрежный океан данных, первая..

Инжиниринг данных для инженеров-программистов
Руководство, как стать дата-инженером от инженера-программиста. Это руководство поможет вам стать инженером данных из инженера-программиста и расскажет, как PySpark заставляет вас думать иначе, чем вы, работая бэкэнд-инженером. Инжиниринг данных — это новая горячая тенденция в программном обеспечении в наши дни. Поскольку каждый день создается все больше и больше данных, и все больше и больше компаний также используют эти данные, существует огромная потребность в инженерах данных...

Введение в Apache Spark!!!
В моем одном из предыдущих блогов о Hadoop мы рассмотрели один из его компонентов, то есть MapReduce . Это была популярная модель кластерных вычислений, которая стала широко популярной, в которой параллельные вычисления данных выполняются на кластерах ненадежных машин системами, которые автоматически обеспечивают планирование с учетом местоположения, отказоустойчивость и балансировку нагрузки. Хотя MapReduce был очень успешным в реализации крупномасштабных приложений, интенсивно..