Публикации по теме 'data-engineering'


AWS Machine Learning Data Engineering Pipeline для пакетных данных
Этот рассказ проведет вас через все шаги, необходимые для создания конвейера обработки данных для пакетных данных с помощью AWS Step Functions. Последовательность шагов работает следующим образом: полученные данные поступают в виде CSV-файла в озеро данных на основе S3 в зоне посадки, которое автоматически запускает лямбда-функцию для вызова функции Step. Я предположил, что данные загружаются ежедневно в файл .csv с соглашением об именах filename_date.csv , например,..

5 видео по инжинирингу данных, которые помогут вам в карьере
Стартапы в области инженерии данных, контент и собеседования, похоже, набирают обороты. Возможно, это потому, что инженерия данных наконец-то стала крутой? Но, возможно, это связано с тем, что компании осознают, что для любой формы работы в области науки о данных вам нужны инженеры по обработке данных, которые в первую очередь обрабатывают данные. Не верьте мне на слово. В отчете Dice о вакансиях в сфере высоких технологий за 2020 год инжиниринг данных назван самой быстрорастущей..

Основы: мультиколлинеарность и интерпретируемость
Одна из основных ошибок опрометчивого аналитика данных. Мультиколлинеарность - это свойство наборов данных, которое может привести к неожиданным, ошибочным, но не технически ошибочным интерпретациям вашей модели и данных. Проверка на мультиколлинеарность (далее MC, для краткости) перед проведением регрессионного анализа может помочь вам получить наиболее полное представление о ваших данных и не упустить из виду важные взаимосвязи. MC в ваших данных означает, что несколько..

Создавайте поддельные, но значимые данные с помощью {fakir}
Одна из проблем, с которой сталкиваются новички в области науки о данных или машинного обучения, - это поиск правильного набора данных для правильного набора задач, которые вы хотите преподавать / изучать / экспериментировать. Допустим, вы хотите преподавать временные ряды, и это тот случай, когда ваш набор данных классификации спама / хамов бесполезен. И вам нужно обратиться к сообществам, которые предлагают наборы данных, такие как хорошо известное репозиторий UCI ML или наборы данных..

Масштабирование группы аналитики данных для стартапа на миллиард долларов
С Вероникой Чжай из Fivetran Масштабировать талант к работе с данными сложно. Трудно нанять. Трудно расти и в целом сложно с точки зрения управления процессами и результатами. Но есть блестящие лидеры и менеджеры, которые делают это каждый день. Недавно я взял интервью у Вероники Чжай, главного менеджера по продукту Fivetran. Она возглавляла аналитическую группу Fivetran почти последний год, и ей удалось расширить ее, составить определенную дорожную карту и достичь поставленных..

Шесть правил для более быстрого развертывания моделей машинного обучения
Наука о данных и машинное обучение могут улучшить практически любой аспект организации, но только если ваши идеи будут использованы. За последний год мы узнали много нового о том, как быстрее создавать и развертывать модели машинного обучения, и хотели поделиться некоторыми вещами, которые мы здесь узнали. Ситуация В нашей организации нам нужно было как можно быстрее окупить наши инвестиции в аналитику. Нам нужно было быстрее развернуть модели машинного обучения в производственной..

Хаки для программирования машинного обучения, которые должен знать каждый инженер по данным - Часть 1
DS В РЕАЛЬНОМ МИРЕ Хаки для программирования машинного обучения, которые должен знать каждый инженер по данным - Часть 1 Шпаргалка для специалистов по анализу данных и машинного обучения. Начнем прямо сейчас. 1. Объект с многоточием (…): Это объект в Python, который можно использовать для нарезки матриц в пакете Numpy, а также для нарезки общих списков. Основная цель этого объекта - упростить работу с многомерными массивами. Несколько индексов в массиве Numpy можно заменить..