Публикации по тегам data-engineering

Публикации по теме 'data-engineering'

Основы веб-парсинга

Как очистить данные с веб-сайта на Python В науке о данных мы всегда говорим «Мусор в мусоре». Если у вас нет данных хорошего качества и количества, скорее всего, вы не получите много полезной информации. Веб-парсинг - один из важных методов автоматического получения сторонних данных. В этой статье я расскажу об основах парсинга веб-страниц и воспользуюсь двумя примерами, чтобы проиллюстрировать 2 различных способа сделать это в Python. Что такое веб-парсинг Веб-парсинг - это..

Почему DataOps никуда не денется

С помощью DataOps инженеры и специалисты по обработке данных могут работать вместе, обеспечивая определенный уровень сотрудничества и взаимодействия с общей целью получения ценной информации для бизнеса. Появление в последнее десятилетие ИИ и машинного обучения навсегда изменило ландшафт данных. По оценкам, компании по всему миру будут тратить более 1,8 триллиона долларов в год к 2021 году на большие данные и усилия по цифровой трансформации, основанной на искусственном интеллекте...

Еженедельник PoPycorn — Выпуск №11

Еженедельно обновляемые блоги и инструменты для специалистов по обработке данных. Наука о данных Дешевое создание классификаторов НЛП с помощью трансферного обучения и слабого контроля medium.com Эффективное создание антисемитского классификатора твитов без общедоступного набора данных путем сочетания слабого контроля и трансферного обучения. Обработка естественного языка в Apache Spark с использованием NLTK (часть 1/2) towardsdatascience.com В самой базовой форме..

Учебное пособие по проектированию данных с Databricks: часть II

Инженерия данных становится одной из самых востребованных ролей в сфере технологий. Узнайте, как стать инженером по обработке данных с помощью Databricks, платформы данных для искусственного интеллекта и аналитики. В предыдущей статье серии мы впервые познакомились с Azure Databricks. Мы ввели потребность в управлении большими объемами данных, что привело к появлению Apache Spark, платформы, на которой построен Azure Databricks. После этих кратких объяснений мы создали рабочую..

Понимание рабочих ролей

В наши дни очень часто можно встретить эти термины — наука о данных, искусственный интеллект, машинное обучение, глубокое обучение и многое другое. Как следствие, на нашем пути появилось множество различных ролей в науке о данных, но сложно получить общее представление о том, чем они отличаются, и какие навыки для них требуются. Цель этой статьи — представить краткие сведения о различных должностях, обязанностях каждой должности, а также о необходимых навыках/квалификациях и..

Сравнение производительности алгоритмов с использованием различных абстрактных типов данных и языков программирования

Недавно я наткнулся на следующее упражнение по программированию, которое Microsoft использовало для собеседований с разработчиками программного обеспечения и инженерами данных, и мне было любопытно, как будет работать реализация такого алгоритма с использованием различных абстрактных типов данных и языков программирования: Для несортированного массива целых чисел найдите длину самой длинной последовательности последовательных элементов. Например, для [100, 4, 200, 1, 3, 2] самая..

Управление жизненным циклом машинного обучения с помощью MLflow

Жизненный цикл проекта машинного обучения сложен. В статье Скрытый технический долг в системах машинного обучения Google взял ссылку на структуру программной инженерии, относящуюся к техническому долгу , и объяснил, что обслуживание реальных систем машинного обучения может повлечь за собой огромные расходы. Изображение ниже действительно отображает реальный сценарий. Крошечный черный ящик, окруженный большими прямоугольниками, - это Волшебный код машинного обучения :) , и..