Узнайте, как использовать Kafka, Spark, Druid и др.

Все признаки указывают на благоприятное будущее для инженерии данных.

В отчете Dice о вакансиях в сфере высоких технологий за 2020 год инженерия данных названа самой быстрорастущей областью в 2020 году, ее рост составил ошеломляющие 50%, в то время как роли в области обработки данных увеличились только на 10%. Вы можете быть уверены, что наплыв рабочих мест по проектированию данных в ближайшее время не уменьшится. Чтобы подкрепить это предположение, International Data Group (IDG) прогнозирует, что пятилетний совокупный темп роста (CAGR) использования данных с 2021 по 2024 год перевесит общий объем создания данных за последние 30 лет. Да, вы правильно поняли: 30 лет назад, задолго до появления FaceBook, YouTube и Amazon.

Если вас по-прежнему не привлекает перспектива инженерии данных, давайте посмотрим на потенциальную прибыль. По состоянию на 9 мая 2021 года, когда было зарегистрировано более 8000 зарплат, Indeed указывает, что инженеры по обработке данных зарабатывают на 10 000 долларов больше в год, чем специалисты по данным. Кроме того, преимущества инженерии данных не ограничиваются только оплатой. Исследование The New Stack показывает, что конкуренция за должности инженеров данных меньше, чем за другие технические должности.

New Stack обнаружил, что на каждую вакансию в LinkedIn и Indeed на каждую вакансию в области науки о данных приходилось 4,76 жизнеспособных кандидатов. Роль инжиниринга данных привлекает только 2,53 подходящих конкурента на каждую вакансию, что почти вдвое увеличивает ваши шансы получить должность инженера данных.

Мы установили, что инженерия данных - это хорошо оплачиваемая должность в одной из самых быстрорастущих технологических областей с относительно низкой конкуренцией. Что не любить?

Однако простой выход из этой области не даст вам права на должность инженера по обработке данных.

Вам понадобится соответствующий реальный опыт, чтобы отточить свои навыки. Что касается вашего будущего поиска работы, один из лучших способов развить и передать эти навыки - это проекты портфолио инженерии данных. В этой статье мы рассмотрим пять потенциальных проектных идей с источниками данных. Прежде чем мы рассмотрим проекты, вам необходимо знать, какие навыки следует использовать в потенциальных проектах. Для этого мы рассмотрим наиболее востребованные наборы навыков для инженеров по обработке данных.

На что следует обратить внимание при разработке проекта Data Engineering?

Когда вы планируете построить проект инженерии данных, есть несколько ключевых областей, на которых вы должны сосредоточиться:

  • Несколько типов источников данных (API, веб-страницы, CSV, JSON и т. Д.)
  • Прием данных
  • Хранилище данных
  • Визуализация данных (чтобы вам было что показать за свои старания)
  • Использование нескольких инструментов. Даже если некоторые инструменты не могут быть идеальным решением, почему бы не поэкспериментировать с Kinesis или Spark, чтобы ознакомиться с ними?

Каждая из этих областей поможет вам улучшить свои навыки и понять конвейер данных в целом. В частности, создание какой-то конечной визуализации - особенно если это включает в себя создание базового веб-сайта для его размещения - может быть интересным способом продемонстрировать свои проекты.

Но хватит разговоров. Давайте рассмотрим некоторые идеи для ваших проектов инженерии данных.

1. Очистите данные Stock и Twitter с помощью Python, Kafka и Spark

Проект 1

С расширением бирж криптовалюты и ростом и падением акций GameStop, акции стали горячей проблемой, вызывая значительный интерес со стороны.

Если вы также увлечены торговлей на рынках, я бы предложил разработать проект, аналогичный Cashtag, проект, который был разработан инженером, работающим в настоящее время в Reddit. Целью этого проекта было создание «конвейера больших данных для анализа настроений пользователей на фондовом рынке США». Короче говоря, этот проект анализирует социальные сети с целью предсказать, как люди могут относиться к определенным акциям в режиме реального времени. Ниже представлен рабочий процесс, использованный в этом проекте:

Этот проект хорошо документирован и может быть использован в качестве основы для вдохновения для вашего проекта, который вы можете учесть в соответствии со своими интересами.

2. Очистите объекты недвижимости с помощью Python и создайте с его помощью информационную панель.

Проект 2

Чтобы познакомиться с некоторыми новыми технологиями, вам следует попробовать такой проект, как 20-минутный проект инженерии данных sspaeti. Цель этого проекта - разработать инструмент, который можно использовать для оптимизации вашего выбора дома / сдачи в аренду.

Этот проект собирает данные с помощью инструментов веб-парсинга, таких как Beautiful Soup и Scrapy. Создание сценариев Python, которые взаимодействуют с HTML, - это то, с чем вы должны познакомиться как инженер по обработке данных, а веб-скрейпинг - отличный способ научиться этому. Интересно, что этот проект охватывает как Delta Lake, так и Kubernetes, которые сейчас являются горячими темами.

Наконец, ни один хороший проект по инженерии данных не обходится без чистого пользовательского интерфейса, показывающего вашу работу. Этот проект углубляется в визуализацию данных с помощью Superset, и все организовано вместе с Dagster. Огромное разнообразие инструментов, используемых в этом проекте, делает его идеальным для портфолио.

3. Сосредоточьтесь на аналитике с данными о переполнении стека

Проект 3

Что, если бы вы могли проанализировать все или хотя бы некоторые из общедоступных репозиториев GitHub? Какие вопросы вы зададите?

Фелипе Хоффа уже проделал некоторую работу над этим типом проектов, где он проанализировал терабайты данных по нескольким статьям из коллекции данных Google BigQuery.

Но при таком большом количестве данных есть много возможностей поработать над аналитическим проектом в той или иной форме. Фелипе, например, проанализировал такие понятия, как:

  • Табуляция против пробелов
  • На каких языках программирования разработчики обязуются использовать на выходных?
  • Анализ репозиториев GitHub на предмет комментариев и вопросов.

Есть так много разных ракурсов, которые вы можете поднять в этом проекте, и он дает вам много творческого потенциала с точки зрения того, как вы относитесь к данным.

Вы можете проанализировать исходный код 2,8 миллиона проектов.

Может быть, вы можете написать статью вроде Какие фрагменты кода для переполнения стека мы можем найти на GitHub?

Кроме того, идея этого проекта должна также указывать на то, что существует множество интересных наборов данных, которые вы можете использовать на таких платформах, как GCP и AWS. Поэтому, если вам не хочется извлекать данные из API, вы всегда можете работать над своими аналитическими решениями с помощью сотен наборов данных, которые предлагают эти два облачных провайдера.

4. Вместо акций прогнозируйте политические и финансовые события с помощью PredictIt.

Проект 4

PredictIt предоставляет рыночные данные, выходящие за рамки прогнозирования запасов, через API. Если вы не знакомы с PredictIt, это новозеландский рынок онлайн-прогнозов, который предлагает биржи для глобальных политических и финансовых событий. Возможно, вы знакомы с заявленными коэффициентами ставок последнего избирательного цикла. Когда эти цифры сообщаются, они ссылаются на рынки, аналогичные PredictIt.

Используя их живые данные API, вы можете делать перекрестные ссылки на всплески новостей, потенциально связывая данные из социальных сетей (например, проект Cashtag, о котором говорилось ранее). Вы можете найти способ привязать политическую болтовню в Интернете к долларовой стоимости.

Конечно, зачем останавливаться на достигнутом? Почему бы не попробовать создать систему хранения данных с помощью чего-то вроде BigQuery и добавить другие данные, такие как твиты, новости и т. Д.?

Затем потратьте время на нормализацию этих данных и попытайтесь создать таблицы, которые представляют связи между всеми этими разрозненными источниками данных.

Это был бы интересный и сложный проект инженерии данных.

5. Сбор данных об инфляции и разработка модели на основе данных CommonCrawl

Проект 5

Еще один интересный проект провел доктор Усама Хуссейн. Он измерял уровень инфляции, отслеживая изменения цен на товары и услуги в Интернете. Учитывая, что BBC сообщает, что в США наблюдается самый высокий уровень инфляции с 2008 года, это важная тема.

В этом проекте автор использовал петабайты данных веб-страниц, содержащихся в Common Crawl.

Я также думаю, что это еще один отличный пример объединения и отображения проекта инженерии данных. Одна из проблем, на которую я часто ссылаюсь, - это то, насколько сложно продемонстрировать свою работу по инжинирингу данных.

Но проект доктора Хуссейна задокументирован таким образом, чтобы показать, какая работа была проделана и какие навыки он имеет, без необходимости копаться во всем коде.

Доктор Хуссейн обрисовывает в общих чертах конвейер данных ниже.

Заключение

Когда дело доходит до выбора проекта, лучший проект - это тот, в котором соблюдается баланс между интересами отрасли и личными интересами. Нравится вам это или нет, но через выбранную вами тему передается личный интерес, поэтому важно найти проект, который вам нравится. Если ваши интересы включают акции, недвижимость, политику или какую-либо другую нишевую категорию, вы можете использовать перечисленные выше проекты в качестве образца, который можно применить к интересующей вас теме.

Свяжитесь со мной в социальной сети

✅ YouTube: youtube.com/channel/UCmLGJ3VYBcfRaWbP6JLJcpA/
✅ Веб-сайт: https://www.theseattledataguy.com/
✅ LinkedIn: https://www.linkedin.com/ в / benjaminrogojan /
✅ Twitter: https://twitter.com/SeattleDataGuy