5 вещей, которые я хотел бы знать, когда стал Data Scientist в 2017 году.

Я упал.

Я сильно упал в 2020 году. Я отлично провел время, и в следующий раз, когда я открыл глаза, я был в долгах, я впал в депрессию, попал в войну соучредителей и выпил свою душу.

18 месяцев я отсутствовал. Я пытался найти дорогу через пустыню и, наконец, нашел.

Но вот проблема.

Игра изменилась. Хотя мой набор навыков был важен, это уже не все. То, что заставило меня отказаться от предложений на пике карьеры, уже не выдерживает никакой критики.

Поэтому вот 5 вещей, которые я хотел бы знать, когда решил стать Data Scientist:

Млопс:

Когда-то писать модели машинного обучения было круто. Какой алгоритм я использую? Выбор функций? Разработка функций? Перекрестная проверка? Это было дерьмо. Уже нет.

MLOps — это новое круто. Мой последний интервьюер спросил, есть ли у меня инженерные навыки, а затем я узнал, что он спрашивал, знаю ли я MLOps.

MLOps — это просто операции машинного обучения или операции модели. Это как машинное обучение + DevOps.

Многие фирмы стремятся включить машинное обучение в свои приложения для решения невероятно сложных бизнес-задач; однако для многих внедрение машинного обучения в производство оказалось даже более сложным, чем просто найти хороших специалистов по данным и выяснить, как обучать модели.

Вы можете нанять самых талантливых инженеров в мире с самым зрелым опытом разработки машинного обучения, но слишком часто их сложные программные решения задерживаются в развертывании, что делает их непродуктивными.

2. Генерация синтетических данных:

«Дайте мне самые грязные или самые зашумленные данные, я все равно буду в восторге», — так я обычно хвастался. Подожди, в блоке новенький.

Теперь организации начали генерировать данные для обучения своих моделей, и это имеет смысл.

Почему?

Качественные данные улучшают производительность модели быстрее и лучше, чем лучший алгоритм. Это показал Эндрю Н.Г. в своей презентации Беседа с Эндрю о MLOps: от модельно-ориентированного к дата-центричному ИИ.

По сравнению с реальными данными создание синтетических данных происходит быстрее, гибче и масштабируемее. Регулировка параметров также может быть эффективным способом моделирования и генерации данных, которых нет в реальном мире.

В финансах жизненно важно предвидеть рынки и тенденции. Моделирование потенциального финансового кризиса может позволить вам составить надежные планы и прогнозы задолго до того, как они потребуются.

3. Инжиниринг данных:

«Мне есть о чем подумать как Data Scientist, меня не волнует инженерия», достаточно справедливо. Но посмотрите еще раз.

Однажды в 2019 году я работал в Data Engineering, когда наш Data Engineer должен был посетить конференцию в США, и мой босс попросил меня заменить его.

Можно с уверенностью сказать, что я не мог дождаться, чтобы выйти из этого отдела. Я думал, что это скучно и рутинно. «Никогда больше», — подумал я про себя, когда закончил.

Но мне кажется, что ландшафт изменился, и мир ожидает, что специалисты по данным будут полностью решать свои проблемы с инженерией данных.

Инжиниринг данных делает науку о данных более продуктивной. Если такого поля нет, нам приходится тратить больше времени на подготовку анализа данных для решения сложных бизнес-задач. Итак, Data Engineering требует полного понимания технологий, инструментов, более быстрого выполнения сложных наборов данных с надежностью.

4. Облачные вычисления:

Это тот, кто меня больше всего раздражает.

Очевидно, потому, что я провалил экзамен Altschool.

Потому что облачные вычисления меняют не только то, как многие компании хранят данные и получают к ним доступ, но и то, как многие из этих компаний работают.

У крупного бизнеса есть преимущество, когда речь идет об облаке. Они могут работать с крупными облачными провайдерами и получать все необходимые услуги. Так что вас легко выкинуть.

5. Параллельные вычисления:

Параллельные вычисления относятся к процессу разбиения более крупных задач на более мелкие, независимые, часто похожие части, которые могут выполняться одновременно несколькими процессорами, взаимодействующими через общую память, результаты которых объединяются после завершения как часть общего алгоритма. Основной целью параллельных вычислений является увеличение доступной вычислительной мощности для более быстрой обработки приложений и решения проблем.

Я использовал параллельные вычисления, когда мои банковские клиенты попросили меня перестроить существующую модель, чтобы улучшить формирование понимания ценности для клиентов, которое длилось более 3 месяцев.

Мне не так грустно знать, что теперь это популярная концепция.

Наконец, из-за моей программы наставничества я нахожу вокруг себя много новичков в науке о данных. Итак, хочу сказать, что эта статья была написана не для того, чтобы напугать вас, а чтобы помочь вам понять, что наука о данных развивается с необычной скоростью. Так что вы должны научиться учиться, и учиться им очень быстро.

P.S. Если у вас есть какие-либо вопросы, напишите мне сообщение в своем профиле LinkedIn или напишите мне по адресу [email protected].

5 вещей, которые я хотел бы знать, когда стал Data Scientist в 2017 году.

Вопросы по теме