Публикации по теме 'data-engineering'


Внедрение приложения для управления задачами — Часть №2
Это вторая часть серии «Внедрение ООП-системы управления задачами». Предыдущая статья была посвящена общему дизайну приложения . Я создал пару диаграмм вместе с вариантами использования и пользовательскими историями, которые помогут на этапе кодирования проекта. В этой статье мы можем начать пачкать руки и погрузиться в код. В этой статье рассматривается внутренняя часть приложения с использованием Python и PostgreSQL . На протяжении всего этапа кодирования я буду постоянно..

Еженедельник PoPycorn — Выпуск №12
Еженедельно обновляемые блоги и инструменты для людей, работающих с данными. Наука о данных Что такое объяснимый ИИ и зачем он нужен? www.datasciencecentral.com Представьте себе, что передовой истребитель патрулирует вражескую зону конфликта, и вдруг на радаре появляется тележка, агрессивно ускоряющаяся на них. Пилот,… Обработка естественного языка в Apache Spark с использованием NLTK (часть 2/2) towardsdatascience.com В первом блоге (Обработка естественного языка в..

Snowflake Python Series 4: Обзор Pandas DataFrame, продолжение..
Я приведу серию примеров, иллюстрирующих использование базы данных Snowflake с помощью встроенного коннектора для выполнения стандартных операций с базой данных, таких как создание объектов, вставка/загрузка данных и выполнение запросов с помощью программы Python. Этот блог является продолжением предыдущих сообщений, в которых я объяснял использование Python и выполнял операции с базами данных программным способом . Я настоятельно рекомендую посетить их в первую очередь . Цель:..

Насмешка над эвристикой как оценщиком scikit-learn
scikit-learn модели часто встраиваются в конвейеры данных для прогнозирования данных, проходящих через конвейер. Для любого производственного конвейера модель должна быть обучена на исторических данных, чтобы обеспечивать точные прогнозы. Однако в некоторых случаях имеет смысл обрабатывать данные конвейера, используя простое правило, которое не принимает во внимание какие-либо предыдущие данные. Несколько случаев, когда это было бы полезно: Трубопровод MVP Когда проект по науке о..

Аналитик данных в Data Scientist
Как мы знаем, данные — это новая нефть , и в эти дни мы окружены данными повсюду! Использование этого огромного массива данных для получения информации и разработки продуктов требует таких навыков, как анализ, визуализация, моделирование и прогнозирование на заключительном этапе. Одной команде или одному человеку сложно выполнить эти задачи. Таким образом, появились роли, с которыми мы сталкиваемся в наши дни. Будь то инженеры данных, аналитик данных, бизнес-аналитик или специалист..

Загрузка данных с общего диска Google в BigQuery: коннектор Python
Перенести ваши данные из Cloud Storage или Campaign Manager в BigQuery очень просто, поскольку BigQuery поддерживает их. Но что, если вы хотите перенести свои данные, например, из Общий диск Google? В этой статье я постараюсь показать вам, как перенести данные в BQ из: Google Storage (и почему это просто) Google Shared Drive (и почему это сложнее) и, наконец, Общий диск Google с особыми требованиями при загрузке (например, файлы с необычной кодировкой) Применение :..

Упрощенные модели машинного обучения: растущее значение инженерии данных
Машинное обучение: необходимость оптимизации В последние годы область машинного обучения (МО) пережила значительный рост благодаря обилию больших наборов данных и достижениям в аппаратном обеспечении и алгоритмах. Однако построение точных моделей машинного обучения может быть сложным и занимать много времени, требуя опыта в области статистики, программирования и знаний в предметной области. В результате компании используют такие методы, как AutoML, облачные службы машинного обучения..