Как разработать решение любой проблемы с использованием методологий Data Science в любой корпорации в…

Как мы знаем, наука о данных породила много преувеличенных ожиданий и любопытства по поводу своего потенциала для многих технических энтузиастов и корпораций, пытающихся внедрить современные технологии. Прежде чем мы перейдем к тому, как использовать науку о данных для любой работы в корпорации в Пакистане, я хотел бы развеять множество мифов и преувеличений, окружающих эту область. Прежде всего;

НАУКА ДАННЫХ — ЭТО НЕ ВОЛШЕБСТВО, ЭТО НЕ БОЛЬШЕ, ЧЕМ КОРПОРАТИВНАЯ НАУКА ДЛЯ ПОМОЩИ.

Многие люди думают, что наука о данных может превратить доходы с нуля в шестизначную цифру и превратить компании с 10 клиентами в корпорацию с миллионами клиентов.

для этого ответ ДА, МОЖЕТ БЫТЬ В СТЕПЕНИ И, КРОВОВОЙ АД, НЕТ.

Быть Data Scientist подразумевает способность понимать и анализировать данные в прошлом, настоящем и оценивать, как может выглядеть их будущее, и как организация, полагающаяся на них, должна подготовиться соответствующим образом.

Какие данные иметь и какая компания их использует, и как мы разработаем наш план, если столкнемся с небольшой фирмой?

КАК ДУМАТЬ

В качестве специалиста по данным, аналитика или инженера по машинному обучению. Прежде чем приступить к анализу, нам нужно сначала взглянуть на бизнес-среду и организационное политическое мышление.

ЧТО ДУМАТЬ

Допустим, например, что компании с 3 отделами, такими как отдел кадров, продажи и финансы, в большинстве случаев будут небольшими фирмами или компаниями, полагающимися на один тип продукта, который будет продаваться с целью получения дохода, например, фабрики по производству чайных чашек.

КОГДА ДУМАТЬ

Когда они решают хранить свои данные, это в основном для отслеживания их деятельности по продажам и всего, что с ней связано, поскольку они не будут заинтересованы в продвижении человеческого мышления или административных процедур, учитывая их консервативные бизнес-настройки, обеспечивающие бесперебойную и правильную продажу 1 продукта. Data Scientist в этом случае можно было бы нанять, чтобы предсказать продажи чайных чашек в следующем году.

КАК ДЕЙСТВОВАТЬ

Специалисту по данным для этого проекта потребуется только чайные чашки, продаваемые каждый месяц, и скормить их существующим алгоритмам машинного обучения, таким как линейная регрессия, для продаж за определенный период времени, а также получить прогноз на следующий год и показать прогнозы временных рядов сбоку для сравнения и многомерного анализа. анализ для отдела продаж. Но если компания сильно ограничена в затратах, тогда специалист по данным может использовать только статистическое прогнозирование и описание пути, чтобы сделать анализ, а машинные алгоритмы используют много вычислительной мощности и много реструктуризации данных.

ПАРТНЕРСТВО С ВНЕШНИМ ТАЛАНТОМ

В этом случае Data Scientist должен будет нанять разработчика приложений, чтобы преобразовать свой код машинного обучения в работающее приложение с интеллектуальным интерфейсом, потому что у небольшой компании, такой как компания по производству чайных чашек, не будет облачной службы или конвейера данных для запуска. Служба машинного обучения или автоматизированный инструмент создания отчетов статистического анализа.

ЕСЛИ КОМПАНИЯ СЛИШКОМ БОЛЬШАЯ?

Для чего можно использовать данные, если это многонациональная или крупная фирма?

При поиске крупных компаний в южно-азиатском регионе, таких как транснациональные корпорации.

Мы должны сначала оценить их организационную экосистему с точки зрения того, как отделы совместно используют и взаимодействуют с различными платформами данных, например, как отдел продаж делится данными о продажах с отделом кадров, чтобы оценить, какой сотрудник делает больше всего продаж и как они должны мотивировать других сотрудников делать это. то же самое, и если отдел кадров может разработать соответствующие программы обучения или изменить инфраструктуру бонусов, чтобы мотивировать сотрудников при проведении продаж.

Должны ли мы реструктурировать данные?

Сначала нам нужно проверить, передаются ли данные через систему ERP, такую как Oracle или SAP, или через общий репозиторий, такой как One Drive, или просто через общую платформу, такую как Microsoft Sharepoint.

Затем нам нужно оценить тип данных, который ценен для всех отделов, например, количество сотрудников будет полезно для отдела кадров, но бесполезно для продаж, но объем продаж на одного сотрудника — это тип данных, полезных как для отдела продаж, так и для отдела кадров, поскольку они оба могут оценивать доход. потоки и развитие сотрудников через них.

На заключительном этапе мы можем решить, должны ли мы сделать эти данные доступными в табличных формах, таких как лист Excel, через общий контроль или базу данных SQL с ограничениями доступа к определенным аспектам для обоих отделов, поскольку отдел продаж не может просматривать зарплаты сотрудников, связанные с их продажами, а отдел кадров может.

Какие алгоритмы мы должны применить?

Нам нужно посмотреть, можно ли получить результат данных с помощью контролируемого или неконтролируемого машинного обучения.

Для числовых результатов предпочтительным алгоритмом является в основном контролируемый алгоритм, в то время как для создания рекомендательных систем, таких как Netflix, Spotify или Deep Level Analytics, таких как анализ изображений Blackhole в массивных наборах данных, мы используем неконтролируемые алгоритмы, а для создания автоматизированных программ искусственного интеллекта, таких как Alexa или Bixby, мы в основном полагаемся на Алгоритмы подкрепления.

После полного изучения характера данных и их стратегических целей мы должны провести исследовательский анализ данных, чтобы увидеть, сможем ли мы найти что-нибудь еще, например:

Есть ли в нем какие-либо ошибки или выбросы. что мы можем сделать с помощью визуализации данных, используя инструменты бизнес-аналитики, такие как PowerBI или Tableau, или даже программирование на Python.

Должны ли мы применять прогнозную аналитику или простое моделирование машинного обучения?

Если наши желаемые прогнозы хотят сравнить прошлые данные с настоящими на основе будущих цифр, например:

Выданы зарплаты.
Количество работников.

Затем мы будем использовать алгоритмы, основанные на регрессии, но если нам нужен прогноз для случая в бинарном результате, таком как «да» или «нет», например, является ли сотрудник мошенником или нет, тогда мы выберем подход, основанный на классификации.

Как только мы ясно понимаем поставленную бизнес-цель, например, если мы хотим увидеть будущий прогноз заработной платы сотрудников, мы будем использовать древовидные алгоритмы, такие как дерево решений или RandomForest, в зависимости от структуры заработной платы организации, например, зависит ли заработная плата от связанных денежные факторы, такие как выпуск премий за последние месяцы или количество премий, требуемых в год, тогда алгоритм дерева решений будет использоваться для кодирования связанных переменных, чтобы сделать прогнозируемую зарплату в будущем. Если это не так, то мы будем использовать регрессор случайного леса, чтобы другие переменные не зависели от включения в вычисление значения прогноза.

Как должен выглядеть результат?

Это полностью зависит от требований заинтересованных сторон или клиента.

Основываясь на их способности мыслить, например, если они хотят видеть это в многомерной форме, мы преобразовали бы наш код машинного обучения в панель мониторинга или, если они хотят увидеть его в форме инструмента интерфейса, мы можем преобразовать код машинного обучения в веб-приложение или API; где вы можете получить вывод, показанный после ввода нужных данных.

API-интерфейс

ПАНЕЛЬ ПРИБОРОВ

ВЕБ-ПРИЛОЖЕНИЕ

ЗАКЛЮЧЕНИЕ

Это обобщенный жизненный цикл попыток запустить и реализовать проект, основанный на науке о данных, в любой стране Южной Азии, где вы сталкиваетесь с культурным консерватизмом и организационной сложностью технологических переменных.

Я надеюсь, что вы поняли мою статью, и я с нетерпением жду, что вы думаете об этом в комментариях ниже.

В настоящее время я изучаю MSC Data Science и AI в Лондонском университете, работаю внештатным специалистом по Data Science в Upwork и работаю с отдельными клиентами и организациями над системами бизнес-аналитики и моделями машинного обучения.

Пожалуйста, подпишитесь на мой средний профиль, чтобы получать больше статей, и свяжитесь со мной в LinkedIn, если вы заинтересованы в обмене профессиональными знаниями или совместной работе над проектами.

https://www.linkedin.com/in/goto-resumemuhammad-ammar-jamshed-029280145

Примечание. Все изображения не являются моим авторским правом и не принадлежат мне.