Публикации по теме 'data-engineering'
Основы веб-парсинга
Как очистить данные с веб-сайта на Python
В науке о данных мы всегда говорим «Мусор в мусоре». Если у вас нет данных хорошего качества и количества, скорее всего, вы не получите много полезной информации. Веб-парсинг - один из важных методов автоматического получения сторонних данных. В этой статье я расскажу об основах парсинга веб-страниц и воспользуюсь двумя примерами, чтобы проиллюстрировать 2 различных способа сделать это в Python.
Что такое веб-парсинг
Веб-парсинг - это..
Почему DataOps никуда не денется
С помощью DataOps инженеры и специалисты по обработке данных могут работать вместе, обеспечивая определенный уровень сотрудничества и взаимодействия с общей целью получения ценной информации для бизнеса.
Появление в последнее десятилетие ИИ и машинного обучения навсегда изменило ландшафт данных. По оценкам, компании по всему миру будут тратить более 1,8 триллиона долларов в год к 2021 году на большие данные и усилия по цифровой трансформации, основанной на искусственном интеллекте...
Еженедельник PoPycorn — Выпуск №11
Еженедельно обновляемые блоги и инструменты для специалистов по обработке данных.
Наука о данных
Дешевое создание классификаторов НЛП с помощью трансферного обучения и слабого контроля
medium.com Эффективное создание антисемитского классификатора твитов без общедоступного набора данных путем сочетания слабого контроля и трансферного обучения.
Обработка естественного языка в Apache Spark с использованием NLTK (часть 1/2)
towardsdatascience.com В самой базовой форме..
Учебное пособие по проектированию данных с Databricks: часть II
Инженерия данных становится одной из самых востребованных ролей в сфере технологий. Узнайте, как стать инженером по обработке данных с помощью Databricks, платформы данных для искусственного интеллекта и аналитики.
В предыдущей статье серии мы впервые познакомились с Azure Databricks. Мы ввели потребность в управлении большими объемами данных, что привело к появлению Apache Spark, платформы, на которой построен Azure Databricks. После этих кратких объяснений мы создали рабочую..
Понимание рабочих ролей
В наши дни очень часто можно встретить эти термины — наука о данных, искусственный интеллект, машинное обучение, глубокое обучение и многое другое. Как следствие, на нашем пути появилось множество различных ролей в науке о данных, но сложно получить общее представление о том, чем они отличаются, и какие навыки для них требуются.
Цель этой статьи — представить краткие сведения о различных должностях, обязанностях каждой должности, а также о необходимых навыках/квалификациях и..
Сравнение производительности алгоритмов с использованием различных абстрактных типов данных и языков программирования
Недавно я наткнулся на следующее упражнение по программированию, которое Microsoft использовало для собеседований с разработчиками программного обеспечения и инженерами данных, и мне было любопытно, как будет работать реализация такого алгоритма с использованием различных абстрактных типов данных и языков программирования:
Для несортированного массива целых чисел найдите длину самой длинной последовательности последовательных элементов. Например, для [100, 4, 200, 1, 3, 2] самая..
Управление жизненным циклом машинного обучения с помощью MLflow
Жизненный цикл проекта машинного обучения сложен. В статье Скрытый технический долг в системах машинного обучения Google взял ссылку на структуру программной инженерии, относящуюся к техническому долгу , и объяснил, что обслуживание реальных систем машинного обучения может повлечь за собой огромные расходы. Изображение ниже действительно отображает реальный сценарий.
Крошечный черный ящик, окруженный большими прямоугольниками, - это Волшебный код машинного обучения :) , и..