Люди хотят делать здесь карьеру. Но их часто оглушает окружающий их шум.

Предположим, вы тот, кто только что был поражен яркими терминами искусственного интеллекта, машинного обучения и науки о данных и решил либо получить степень в одной из этих областей, либо изменить свою карьеру и войти в индустрию данных. Вы попадаете в шумиху, присоединяетесь к подножке, записываете на курсы Эндрю Нга на Coursera, еще на несколько курсов на Udacity, покупаете несколько подробных книг и просматриваете их, запускаете Kaggling, реализуете некоторые проекты и публикуете исследовательские статьи. Вы начинаете чувствовать себя хорошо за то, чего достигли. Но когда вы идете и подаете заявление о приеме на работу или стажировку, вы не получаете этого и задаетесь вопросом, почему.

Что ж, дело в том, что все, что вы сделали выше, хорошо для знакомства с основами и для знакомства с тем, что может предложить отрасль. Однако индустрия данных по своей природе междисциплинарна, обширна и постоянно развивается, а экосистема вокруг нее очень шумная. Я имею в виду, просто выполните поиск по любому из модных слов, и вы получите тысячи статей - все они утверждают, что отличаются от остальных; этот не делает - взрывные мнения, советы, учебные пособия и многое другое. Недавно я прочитал статью, в которой автор сетовал на отсутствие полезных онлайн-ресурсов для экспертов в этой области. Практически все ориентировано на новичков. Представь это!

На самом деле новичкам нужно развить способность ориентироваться в этой огромной отрасли, решать для себя, чего они хотят от нее и как этого добиться.

В индустрии данных будьте экспертом по вертикали, а не «экспертом» по горизонтали.

Оттачивание мыслительного процесса

Чтобы увеличить объем данных и отфильтровать шум, каждому человеку необходимо знать на каждом этапе своего бесконечного процесса обучения:

  1. Как работает индустрия данных
  2. Какую технологию он использует
  3. Как это продвигается

и согласовать это с тем, что человек:

  1. Представляет свою роль в отрасли как
  2. Планирует добраться до желаемой позиции
  3. Знает - это ресурсы, доступные в их распоряжении для этого, и все это циклический процесс.

При этом, вот глубокое погружение в доступные типы взаимосвязанных ресурсов знаний.

10 ресурсов

  1. МООК / Сертификаты. Онлайн-курсы и сертификаты - отличный способ начать работу, как и ускоренный курс. Одним из преимуществ шума здесь является огромное количество доступных опций. Учитывая, что каждый начинает с настоятельно рекомендуемого курса, МООК знакомят с концепциями, терминологией, различиями и структурой отрасли данных и ее различных подотраслей. В довершение всего, есть сертификат - многие университеты начали признавать его за кредиты - чтобы показать за него!
  2. Справочники. Справочники по искусственному интеллекту, глубокому обучению и машинному обучению могут подойти для более глубокого изучения любой выбранной темы. Этот тип ресурсов будет охватывать углубленную теорию и дать четкое понимание основных концепций. А также введение в основную математику!
  3. Математика. Математика сама по себе не нужна. Однако, чтобы иметь полное представление о любой концепции, алгоритме или технике в индустрии данных, необходимо знать лежащую в основе математику. Это позволит им понять концепцию на низовом уровне, а также понять и настроить работу концепции на программном уровне (подумайте: библиотеки реализации)
  4. Технологии. Каждый день для разработчиков создаются все более совершенные и оптимизированные библиотеки и фреймворки на многих разных языках на основе концепций индустрии данных. Для кого-то, кто хочет сделать карьеру, разрабатывая модели машинного обучения или конвейеры данных, совершенно необходимо быть в курсе новейших предложений, а также понимать лежащие в основе концепции и математику, чтобы они могли использовать их в полной мере.
  5. Исследования. Напротив, для тех, кто с нетерпением ждет карьеры исследователя в отрасли, обязательно нужно следить за новейшими предложениями с теоретической точки зрения. Вот почему чтение исследовательских работ и публикация собственных работ имеет большое значение. Здесь тоже помогает математическое понимание.
  6. Kaggle: после знакомства с теорией и концепциями следующим шагом будет использование теории, и библиотеки научатся работать с некоторыми реальными данными. Kaggle - лучшая платформа для работы с реальными данными из реальных случаев использования - от анализа данных до настройки гиперпараметров. Единственный недостаток - а также его самый большой недостаток - это то, что развертывание модели и построение приложения на основе модели невозможно на платформе. Kaggle может лучше всего подойти будущим аналитикам данных и инженерам по машинному обучению.
  7. Проекты: чтобы преодолеть недостаток Kaggle, необходимо создавать автономные проекты. Точно так же можно использовать данные из Kaggle, но в любом проекте, который не выполняется на Kaggle, сделайте так, чтобы приложение было обернуто вокруг модели и развернуто. Таким образом можно получить некоторый опыт в непрерывной разработке приложений в индустрии данных.
  8. Облако: Говоря о сквозной разработке, большая часть происходящих разработок и предлагаемые услуги теперь основаны на облаке. Следовательно, абсолютно необходимо, чтобы кто-то, кто хочет сделать карьеру в развертывании приложений для обработки данных (например, MLOps), был знаком с различными облачными технологиями в этой области.
  9. Стажировки: наконец, все практические и теоретические знания можно использовать во время стажировок или на работе, чтобы придумать, спланировать, спроектировать и построить что-то с нуля в соответствии с требованиями клиента. Разница между этим и проектами в том, что в проектах определение проблемы уже дано, и нет необходимости думать с точки зрения бизнеса. По сути, стажировки и работа дают возможность расширить возможности человека по мозговому штурму, поскольку требования редко бывают однозначными и однозначными. Это может быть идеальным опытом для будущих специалистов по анализу данных.
  10. Знание предметной области. Помните, что индустрия данных похожа на марафон. Сочетание любого типа бизнес-требований с данными сложно, и получение достаточных знаний, чтобы всегда делать это в бизнес-области, требует времени и связи с бизнес-областью в течение нескольких лет. После этого он будет на вершине пирамиды данных для этого домена!

Эта статья основана на моем путешествии и опыте работы в отрасли. Я бы посчитал унизительным, если кто-то улучшит пост или укажет на что-то, что я пропустил или ошибся.

Наконец, я хотел бы подключиться к Linkedin!