Публикации по теме 'data-engineering'


Как я начинаю ML и подход, которому я следую (L1)
Следование за вопросом — хорошая отправная точка Машинное обучение Лекция-1 Изучение математики (тема): Вектор Пример вектора а.б и а Х б Пример из жизни (почему важна математика) Вопросы нужно выучить: Насколько полиномиальный вектор (абстрактный) Что такое векторное пространство Что такое линейное отображение и для чего оно используется в вычислениях Что такое матрица Умножение Добавление Вычитания Разделение возможно или нет Прочие операции Что такое..

Импорт более 100 миллионов записей в DynamoDB менее чем за 30 минут!
На прошлой неделе AWS выпустила новую функцию, позволяющую экспортировать полную таблицу Dynamo несколькими щелчками мыши, но также стоит знать, как наполнить таблицу данными любого масштаба. Больше никто не будет страдать при настройке процесса полного экспорта таблицы DynamoDB в S3. Однако этого нельзя сказать о тех, кто хочет импортировать данные в таблицу Dynamo. Особенно много данных и быстро. Необходимость в быстром массовом импорте может возникнуть, когда записи в таблице..

Инжиниринг данных и управление рабочим процессом с префектом
Prefect — это система управления рабочими процессами на основе Python с открытым исходным кодом, которая позволяет определять, планировать и отслеживать конвейеры данных. Вот руководство для начинающих по использованию Prefect для обработки данных: Монтаж Чтобы установить Prefect, вы можете использовать pip: pip install prefect Определение рабочих процессов Рабочие процессы в Prefect определяются с помощью кода Python. Рабочий процесс состоит из задач, которые являются отдельными..

Ландшафт инженерии данных в 2022 году.
Год за годом наблюдается обогащение отрасли разнообразными продуктами, и до сих пор развитие следует экспоненциальному графику. Каждый год нашим дата-инженерам и специалистам по данным требуется освоить различные технологии и инструменты. Эта статья расскажет нам о ландшафте инженерии данных в 2022 году. Давайте начнем с нашего первого раздела. Прием данных Основным мотивом приема данных является получение некоторых данных и их обработка для хранения или немедленного использования...

Тема:12 ХПК или Проклятие размерности
Проклятие размерности (COD): что это такое? COD или Проклятие размерности  — это термин, используемый в машинном обучении для описания трудностей, возникающих при работе с многомерными данными. По сути, это относится к тому факту, что многие алгоритмы и модели становятся все менее эффективными по мере увеличения количества измерений в данных. Проклятие размерности возникает из-за того, что по мере увеличения числа измерений количество данных, необходимых для правильного..

Конвейер автоматизированного проектирования данных для пакетных данных в машинном обучении
Распространенный вариант использования в жизненном цикле машинного обучения Data Engineering - доступ к последним обучающим данным, чтобы предотвратить ухудшение модели. Специалисты по обработке данных часто находят обременительным вручную экспортировать данные из таких источников, как реляционные базы данных, хранилища данных NoSQL или даже распределенные данные. Это требует автоматизации конвейера разработки данных в машинном обучении. В этом посте мы расскажем, как настроить этот..

Как запустить Airflow локально с помощью Docker
Пошаговое руководство по запуску Airflow с Docker на локальном компьютере Введение Apache Airflow — одна из самых популярных технологий в области проектирования данных, которая позволяет пользователям создавать, организовывать и отслеживать конвейеры данных в любом масштабе. Есть определенный шанс, что вы уже пытались запустить Airflow локально, установив его через pip , но есть вероятность, что вы столкнетесь с проблемами и, что еще хуже, испортите свою локальную среду. Если вы..