Публикации по теме 'data-engineering'
AWS Machine Learning Data Engineering Pipeline для пакетных данных
Этот рассказ проведет вас через все шаги, необходимые для создания конвейера обработки данных для пакетных данных с помощью AWS Step Functions. Последовательность шагов работает следующим образом: полученные данные поступают в виде CSV-файла в озеро данных на основе S3 в зоне посадки, которое автоматически запускает лямбда-функцию для вызова функции Step. Я предположил, что данные загружаются ежедневно в файл .csv с соглашением об именах filename_date.csv , например,..
5 видео по инжинирингу данных, которые помогут вам в карьере
Стартапы в области инженерии данных, контент и собеседования, похоже, набирают обороты.
Возможно, это потому, что инженерия данных наконец-то стала крутой?
Но, возможно, это связано с тем, что компании осознают, что для любой формы работы в области науки о данных вам нужны инженеры по обработке данных, которые в первую очередь обрабатывают данные.
Не верьте мне на слово.
В отчете Dice о вакансиях в сфере высоких технологий за 2020 год инжиниринг данных назван самой быстрорастущей..
Основы: мультиколлинеарность и интерпретируемость
Одна из основных ошибок опрометчивого аналитика данных.
Мультиколлинеарность - это свойство наборов данных, которое может привести к неожиданным, ошибочным, но не технически ошибочным интерпретациям вашей модели и данных. Проверка на мультиколлинеарность (далее MC, для краткости) перед проведением регрессионного анализа может помочь вам получить наиболее полное представление о ваших данных и не упустить из виду важные взаимосвязи.
MC в ваших данных означает, что несколько..
Создавайте поддельные, но значимые данные с помощью {fakir}
Одна из проблем, с которой сталкиваются новички в области науки о данных или машинного обучения, - это поиск правильного набора данных для правильного набора задач, которые вы хотите преподавать / изучать / экспериментировать. Допустим, вы хотите преподавать временные ряды, и это тот случай, когда ваш набор данных классификации спама / хамов бесполезен. И вам нужно обратиться к сообществам, которые предлагают наборы данных, такие как хорошо известное репозиторий UCI ML или наборы данных..
Масштабирование группы аналитики данных для стартапа на миллиард долларов
С Вероникой Чжай из Fivetran
Масштабировать талант к работе с данными сложно.
Трудно нанять.
Трудно расти и в целом сложно с точки зрения управления процессами и результатами.
Но есть блестящие лидеры и менеджеры, которые делают это каждый день.
Недавно я взял интервью у Вероники Чжай, главного менеджера по продукту Fivetran. Она возглавляла аналитическую группу Fivetran почти последний год, и ей удалось расширить ее, составить определенную дорожную карту и достичь поставленных..
Шесть правил для более быстрого развертывания моделей машинного обучения
Наука о данных и машинное обучение могут улучшить практически любой аспект организации, но только если ваши идеи будут использованы. За последний год мы узнали много нового о том, как быстрее создавать и развертывать модели машинного обучения, и хотели поделиться некоторыми вещами, которые мы здесь узнали.
Ситуация
В нашей организации нам нужно было как можно быстрее окупить наши инвестиции в аналитику. Нам нужно было быстрее развернуть модели машинного обучения в производственной..
Хаки для программирования машинного обучения, которые должен знать каждый инженер по данным - Часть 1
DS В РЕАЛЬНОМ МИРЕ
Хаки для программирования машинного обучения, которые должен знать каждый инженер по данным - Часть 1
Шпаргалка для специалистов по анализу данных и машинного обучения.
Начнем прямо сейчас.
1. Объект с многоточием (…):
Это объект в Python, который можно использовать для нарезки матриц в пакете Numpy, а также для нарезки общих списков. Основная цель этого объекта - упростить работу с многомерными массивами. Несколько индексов в массиве Numpy можно заменить..