Сделайте свое обучение более эффективным.

Мое путешествие в науку о данных началось в 2019 году. Те, кто следит за мной на Medium, знают, что мне нравится делиться своим опытом изучения науки о данных. Я пишу об ошибках, которые я сделал, о проблемах, с которыми я столкнулся, об инструментах, которые я часто использую, и так далее.

В этой статье я хотел бы поделиться 3 предложениями для тех, кто планирует стать специалистом по данным или только начал изучать науку о данных. Они основаны на моем собственном опыте и на том, что я наблюдаю в экосистеме науки о данных.

Без дальнейших церемоний, давайте начнем.

1. Будьте гибкими

Все больше и больше компаний инвестируют в науку о данных с целью преобразования данных в ценность. Форма этой стоимости зависит от бизнеса и отрасли.

  • Ритейлеры используют науку о данных для более эффективного управления запасами, создавая точные и надежные модели машинного обучения.
  • Заводы собирают и анализируют большие объемы данных датчиков для профилактического обслуживания.
  • Я видел, как в некоторых ресторанах внедряют системы обработки изображений, чтобы определять, какие продукты выбрасываются в корзину. Это позволяет им лучше управлять тем, сколько они должны готовить.

Список можно продолжить. Существует множество приложений и продуктов для обработки данных, используемых в различных отраслях.

В этом постоянно расширяющемся мире науки о данных инструменты и методы также развиваются и расширяются. Чтобы оставаться конкурентоспособными, специалисты по данным должны быть гибкими и легко адаптироваться к изменениям.

Как только вы освоитесь с конкретным инструментом, изучение нового кажется пустой тратой времени. Тем не менее, новый инструмент, вероятно, обеспечит лучшую производительность. Следите за достижениями в области технологий и исследуйте как можно больше и не стесняйтесь пробовать новые инструменты.

Это, конечно, не означает, что вы должны научиться использовать все, что там есть. Это невозможно или осуществимо. По мере того, как вы приобретете больше опыта в этой области, у вас появится представление о том, что является многообещающим и имеет потенциал, который стоит открыть. Основное требование, однако, заключается в том, что вы должны быть готовы к изменениям.

2. Сертификаты важны, но не в счет

Количество и разнообразие ресурсов для изучения науки о данных огромно. Вы можете читать книги, смотреть учебные пособия, проходить онлайн-курсы и так далее.

И есть реальность сертификатов. Вы можете найти сертификат практически по любой теме науки о данных. Некоторые охватывают более широкий диапазон, а некоторые сосредоточены на конкретной задаче, такой как очистка данных с помощью Pandas.

Если вы собираетесь следовать пути самообучения, сертификаты пригодятся в первую очередь. Я начал с того, что собрал пару штук. Два важных преимущества сертификатов:

  • Они намного дешевле, чем традиционные методы обучения, такие как степень магистра.
  • Обычно они организованы и хорошо структурированы, поэтому вы быстро освоитесь в этой области.

Хотя я согласен с преимуществами сертификатов, я предлагаю не слишком зацикливаться на них. Наличие 20 сертификатов не окажет существенного влияния на менеджеров по найму или рекрутеров. Я не думаю, что они будут проходить список из 20 сертификатов.

Кроме того, то, что вы узнаете из сертификатов, ограничено. Большинство из них требуют просмотра учебных пособий и решения простых упражнений. Вы можете понять тему, посмотрев учебник. Однако для того, чтобы на самом деле научиться этому, вам нужен практический опыт и активное участие.

3. Сделайте проект, полностью имитирующий рабочий процесс

Со стороны кажется, что работа специалиста по данным заключается в анализе данных для извлечения информации и создания моделей. Это было то, что я думал, по крайней мере.

Теперь, когда я в деле, мои представления о том, чем занимаются специалисты по обработке и анализу данных, сильно изменились. Извлечение информации из данных или создание моделей, конечно, важная часть этого. Однако в большинстве случаев то, что ожидается от специалиста по данным, выходит за рамки этого.

Это в значительной степени включает в себя то, что, как известно, является работой инженеров данных. Например, как специалисту по данным вам, вероятно, потребуется принять участие в процессах ETL. В зависимости от компании вам, возможно, придется решать некоторые задачи по разработке программного обеспечения.

Я думаю, что самая сложная часть — это машинное обучение в производстве и в масштабе.

Допустим, вам поручили создать модель машинного обучения для прогнозирования продаж. Изучая науку о данных, мы обычно работаем в блокнотах Jupyter. Однако в реальной жизни ваша модель должна быть развернута в производстве. Это может быть вашей обязанностью или вам нужно будет принять участие.

В любом случае предлагаю ознакомиться с инструментами, используемыми для машинного обучения в продакшене. Кстати, это не обязательно должно быть машинное обучение. Вместо этого это может быть сбор данных из нескольких разных источников, их очистка и объединение, а также выполнение некоторого анализа. Общая часть заключается в том, что это должно быть сделано в производстве.

Что больше всего помогает для этих задач, так это выполнение проекта, который включает в себя этапы типичного рабочего процесса обработки данных в производстве.

Вот предложение проекта:

  • Собирайте данные, хранящиеся в облаке (например, в корзине S3)
  • Запустите скрипт, который очищает и предварительно обрабатывает данные
  • Создайте модель машинного обучения и тренируйтесь на предварительно обработанных данных
  • Делайте прогнозы
  • Запишите прогнозы в облако

Весь этот процесс можно запустить на сервере EC2 и организовать с помощью Airflow. Успешно завершив этот проект, вы получите практический опыт в следующих областях:

  • Облачные вычисления
  • Очистка данных и предварительная обработка
  • Машинное обучение
  • Оркестрация конвейеров данных и рабочих процессов

Я почти уверен, что этот проект гораздо полезнее, чем получение многих сертификатов.

Вы можете стать участником Medium, чтобы разблокировать полный доступ к моим материалам, а также к остальной части Medium. Если вы уже подписались, не забудьте подписаться, если хотите получать электронные письма всякий раз, когда я публикую новую статью.



Спасибо за чтение. Пожалуйста, дайте мне знать, если у вас есть какие-либо отзывы.