Публикации по теме 'data-engineering'


Как работать с генераторами Python
Улучшите читаемость, потребление памяти и производительность, зная, как писать генераторы Введение Были ли у вас когда-нибудь проблемы с обработкой набора данных, который был слишком большим, чтобы поместиться в памяти? Вы когда-нибудь писали сложные и уродливые циклы for, когда хотели перебирать некоторые вычисляемые значения, требующие сохранения состояния? Или вам когда-нибудь приходилось потреблять данные из потенциально бесконечного потока, такого как очередь сообщений Кафка ,..

Starburst, Data Stack Show, Нам не нужны специалисты по данным; ThDPTh #31 🐰
Как Starburst и trino будут развиваться в будущем, почему нам не нужно больше специалистов по данным, а инженеры данных и Свен в стеке данных показывают, что обсуждают все, что связано с данными. Данные будут питать каждую часть нашего существования в ближайшем будущем. Я собираю Точки данных , чтобы помочь понять и сформировать это будущее. Если вы хотите поддержать это, поделитесь им в Twitter, LinkedIn или Facebook. 🔥 (1) Джастин Боргман, Starburst в подкасте Я только..

5 практических примеров SQL для освоения SQL GROUP BY
Наука о данных 5 практических примеров SQL для освоения SQL GROUP BY Простой и сложный вариант использования SQL GROUP BY менее чем за 10 минут GROUP BY в SQL, объяснение SQL — язык структурированных запросов — широко используемый инструмент для извлечения данных из реляционной базы данных и их преобразования. Преобразование данных будет неполным без агрегирования данных, что является важной концепцией в SQL. А агрегация данных невозможна без GROUP BY! Поэтому важно освоить..

Развертывание моделей машинного обучения Python в API с помощью Flask
Мне часто приходится развертывать модели машинного обучения для использования с другими службами или языками. Flask — это отличный минималистичный веб-фреймворк для развертывания простого API, и, поскольку он написан на Python, вы можете легко создать API для применения любой из ваших текущих моделей машинного обучения Python. В этом примере мы возьмем простую задачу классификации текста из sklearn и создадим минимальный API для применения нашей модели к любому входному тексту...

Новый претендент на ETL в AWS?
Запуск крупномасштабных заданий ETL без поддержки армии разработчиков ETL - или Извлечь, Преобразовать, Загрузить - является распространенным шаблоном для обработки входящих данных. Он позволяет эффективно использовать ресурсы, объединяя «преобразование» в одну массовую операцию, что часто значительно упрощает разработку и сопровождение, чем аналог потоковой обработки. Он также хорошо подходит для разовых исследований наборов данных, когда пользователь пишет некоторый собственный код..

Преодоление самых серьезных проблем Apache Spark
Осмысление больших данных Преодоление самых серьезных проблем Apache Spark Подробное руководство по наиболее сложным аспектам Spark и способам их преодоления специалистами по данным и инженерам. Компьютерное фото Камрана Айдинова - www.freepik.com Примерно 6 лет назад я впервые использовал Apache Spark, который на тот момент был доказательством того, что я начал заниматься аналитикой «больших данных». Не было никаких сомнений в том, что освоение Spark было обязанностью..

Ведущие переговоры по инженерии данных от ODSC East 2020
Одно дело создать модель машинного обучения, другое дело - эффективно внедрить ее в своем бизнесе. Чтобы справиться с проблемами перемещения моделей машинного обучения через производство и развертывание, важно хорошо разбираться в MLOps и Data Engineering. Возможно, неудивительно, что MLOps и Data Engineering были популярны в ODSC East Virtual в апреле этого года. Соответственно, мы создали серию видео, включающую в себя основные доклады, семинары и тренинги по MLOps и Data..