«Хотите верьте, хотите нет, но вы ничем не отличаетесь от Дейты. Поставьте себя на место Дейты, и вы поймете почему ».

Жил-был мальчик по имени Дата. На протяжении всей своей жизни он всегда пытался понять смысл своей жизни. Какие у меня ценности? Какое влияние я могу оказать на этот мир? Откуда берутся данные? Эти вопросы всегда были в его голове и К счастью, благодаря чистой удаче, Data, наконец, нашла решение и претерпела огромную трансформацию.

Все началось с того, что Дейта шел по рядам и наткнулся на странную, но интересную трубку. На одном конце была труба с входом, а на другом - выходом. Трубка также была помечена пятью разными буквами: «O.S.E.M.N.». Каким бы любопытным он ни был, Дейта решил вмешаться. Короче говоря… пришли данные, а пришли выводы.

Data Science - это OSEMN

Ты восхитителен. Я великолепен. Наука о данных - это OSEMN. Вы можете спросить, почему наука о данных такая «крутая»? Что ж, поскольку вы начинающий специалист по данным, вам предоставляется возможность отточить свои способности как волшебника, так и детектива. Под мастером я подразумеваю способность предсказывать вещи автоматически! а под детективом - способность находить неизвестные закономерности и тенденции в ваших данных!

Понимание типичного рабочего процесса о том, как работает конвейер обработки данных, является важным шагом на пути к пониманию бизнеса и решению проблем. Если вас пугает работа конвейера обработки данных, не говорите больше. Эта статья для вас! Я нашел очень простую аббревиатуру, которую вы можете использовать в своем конвейере обработки данных. Это O.S.E.M.N.

Напоминание. В этой статье будет кратко представлен общий обзор того, чего ожидать от типичного конвейера обработки данных. От формулировки бизнес-проблемы до создания практических идей. Не волнуйтесь, это будет легко прочитать!

ОСЕМН Трубопровод

  • O - Получение наших данных
  • S - Очистка / очистка наших данных
  • E - Изучение / визуализация наших данных позволит нам найти закономерности и тенденции.
  • M - Моделирование наших данных даст нам возможность делать прогнозы как мастера.
  • N - Интерпретация наших данных

Деловой вопрос

Поэтому, прежде чем мы начнем конвейер OSEMN, наиболее важный и важный шаг, который мы должны принять во внимание, - это понять, какую проблему мы пытаемся решить. Давайте повторим еще раз. Прежде чем мы даже начнем что-либо делать с «наукой о данных», мы должны сначала принять во внимание, какую проблему мы пытаемся решить. Если у вас есть небольшая проблема, которую вы хотите решить, то в лучшем случае вы получите небольшое решение. Если вам нужно решить БОЛЬШУЮ проблему, у вас будет возможность найти БОЛЬШОЕ решение.

Задайте себе вопрос:

  • Как перевести данные в доллары?
  • Какое влияние я хочу оказать с помощью этих данных?
  • Какую ценность для бизнеса представляет наша модель?
  • Что сэкономит нам много денег?
  • Что можно сделать, чтобы наш бизнес работал более эффективно?

Знание этой фундаментальной концепции приведет вас далеко и приведет к еще большим шагам на пути к успеху в становлении «специалистом по данным» (из того, что я считаю… извините, я не один из них!) Но, тем не менее, это все еще очень важный шаг, который вы должны делать! Независимо от того, насколько хорошо ваша модель предсказывает, независимо от того, сколько данных вы собираете, и независимо от того, насколько OSEMN ваш конвейер ... ваше решение или практическая информация будут настолько хороши, насколько хороша поставленная вами проблема. для себя.

«Хорошая наука о данных - это больше о вопросах, которые вы задаете, а не обдумывании и анализе данных», - Райли Ньюман

Получите ваши данные

Вы, как специалист по данным, ничего не можете сделать, даже не имея данных. Как правило, есть некоторые вещи, которые вы должны учитывать при получении данных. Вы должны идентифицировать все ваши доступные наборы данных (которые могут быть из Интернета или внешних / внутренних баз данных). Вы должны извлечь данные в пригодный для использования формат (.csv, json, xml и т. Д.)

Необходимые навыки:

  • Управление базой данных: MySQL, PostgresSQL, MongoDB.
  • Запросы к реляционным базам данных
  • Получение неструктурированных данных: текст, видео, аудиофайлы, документы.
  • Распределенное хранилище: Hadoops, Apache Spark / Flink.

Очистка / очистка ваших данных

Очистите столбец 5! Этот этап конвейера потребует больше всего времени и усилий. Потому что результаты и выходные данные вашей модели машинного обучения хороши ровно настолько, насколько вы в нее вкладываете. В основном, мусор в помойке выбрасывают.

Цель:

  • Изучите данные: изучите каждую функцию, с которой вы работаете, определите ошибки, отсутствующие значения и поврежденные записи.
  • Очистите данные: выбросьте, замените и / или заполните отсутствующие значения / ошибки

Необходимые навыки:

  • Язык сценариев: Python, R, SAS.
  • Инструменты обработки данных: Python Pandas, R
  • Распределенная обработка: Hadoop, Map Reduce / Spark

«Человек, который готов, ведет половину битвы» - Мигель де Сервантес.

Исследование (исследовательский анализ данных)

Теперь, на этапе исследования, мы пытаемся понять, какие закономерности и ценности имеют наши данные. Мы будем использовать различные типы визуализаций и статистических тестов, чтобы подтвердить наши выводы.

Цель:

  • Найдите закономерности в своих данных с помощью визуализаций и диаграмм
  • Извлекайте особенности, используя статистику для выявления и тестирования значимых переменных

Необходимые навыки:

  • Python: Numpy, Matplotlib, Pandas, Scipy.
  • R: GGplot2, Dplyr
  • Выводимая статистика
  • Экспериментальный дизайн
  • Визуализация данных

Совет. Испытайте «паучье чутье» во время анализа. Имейте смысл замечать странные закономерности или тенденции.

Рекомендации по дизайну. В большинстве случаев люди сразу переходят к визуальному оформлению: «Давай сделаем это». Все зависит от конечного пользователя, который будет его интерпретировать. Сосредоточьтесь на своей аудитории.

Моделирование (машинное обучение)

Теперь самое интересное. Модели - это общие правила в статистическом смысле. Думайте о модели машинного обучения как об инструментах в вашем наборе инструментов. У вас будет доступ ко многим алгоритмам и вы сможете использовать их для достижения различных бизнес-целей. Чем лучше вы используете функции, тем выше будет ваша способность прогнозирования. После очистки данных и определения наиболее важных функций использование модели в качестве инструмента прогнозирования только улучшит принятие решений в вашем бизнесе.

Пример прогнозирующей способности. Прекрасный пример можно увидеть в цепочке поставок Walmart. Walmart смог предсказать, что они продадут все свои клубничные пирожные во время сезона ураганов в одном из магазинов. Исторические данные, полученные с помощью интеллектуального анализа данных, показали, что самым популярным товаром, продаваемым до урагана, были Pop-tarts. Как бы безумно это ни звучало, это правдивая история, и она заставляет задуматься о том, что нельзя недооценивать силу прогнозной аналитики.

Цель:

  • Углубленная аналитика: создание прогнозных моделей / алгоритмов.
  • Оцените и уточните модель

Необходимые навыки:

  • Машинное обучение: контролируемые / неконтролируемые алгоритмы
  • Методы оценки
  • Библиотеки машинного обучения: Python (Sci-kit Learn) / R (CARET)
  • Линейная алгебра и многомерное исчисление

"Занимайтесь машинным обучением, как великий инженер, которым вы являетесь, а не как великий эксперт по машинному обучению, которым вы не являетесь"

Интерпретация (повествование данных)

Пришло время рассказов! Самый важный шаг в конвейере - понять и научиться объяснять свои выводы через общение. Рассказывать историю - ключ к успеху, не стоит недооценивать ее. Речь идет о том, чтобы общаться с людьми, убеждать их и помогать им.

Эмоции - это ключевая движущая сила рассказывания историй. Люди не смогут волшебным образом понять ваши открытия. Лучший способ произвести впечатление - рассказать свою историю через эмоции. На нас, людей, сильно влияют эмоции. Если вы можете подключиться к эмоциям своей аудитории, тогда все в ваших руках, мой друг. Когда вы представляете свои данные, помните о силе психологии. Искусство понимать свою аудиторию и общаться с ней - одна из лучших составляющих рассказывания историй.

Лучшая практика. Я настоятельно рекомендую вам улучшить рассказывание историй о данных, если репетировать их снова и снова. Если вы родитель, то это хорошие новости. Вместо того, чтобы читать типичную статью Dr. Сеусс для ваших детей перед сном, попробуйте уложить их спать своими результатами анализа данных! Потому что, если ребенок понимает ваше объяснение, то это может понять любой, особенно ваш Босс!

«Если вы не можете объяснить это шестилетнему ребенку, вы сами этого не понимаете». - Альберт Эйнштейн

Цель:

  • Получите бизнес-идеи: вернитесь к бизнес-проблеме
  • Соответственно визуализируйте свои выводы: делайте это простым и приоритетным
  • Расскажите ясную и действенную историю: эффективно общайтесь с нетехнической аудиторией

Необходимые навыки:

  • Знание предметной области
  • Инструменты визуализации данных: Tablaeu, D3.JS, Matplotlib, GGplot, Seaborn.
  • Общение: презентация / выступление и сообщение / письмо

Обновление вашей модели

Не волнуйтесь, ваша история на этом не заканчивается. Поскольку ваша модель находится в производстве, важно периодически обновлять ее, в зависимости от того, как часто вы получаете новые данные. Чем больше данных вы получаете, тем чаще обновляются. Допустим, вы Amazon и представили покупателям новую функцию покупки обуви. У вас в старой модели этого нет, и теперь вы должны обновить модель, которая включает эту функцию. В противном случае ваша модель со временем ухудшится и не будет работать так же хорошо, что и ваш бизнес тоже ухудшится. Знакомство с новыми функциями изменит характеристики модели за счет различных вариаций или, возможно, корреляции с другими функциями.

Заключительное примечание

Большинство проблем, с которыми вы столкнетесь, на самом деле являются инженерными. Даже со всеми ресурсами великого бога машинного обучения наибольшее влияние окажут отличные функции, а не отличные алгоритмы машинного обучения. Итак, основной подход:

  1. Убедитесь, что ваш конвейер прочный от начала до конца
  2. Начните с разумной цели
  3. Интуитивно понимайте свои данные
  4. Убедитесь, что ваш трубопровод остается прочным

Мы надеемся, что этот подход принесет много денег и / или сделает многих людей счастливыми на долгое время.

Итак ... в следующий раз, когда вас спросят, что такое наука о данных. Скажите им:

«Наука о данных - это OSEMN»

Надеюсь, вы сегодня кое-чему научились! Если есть что-то, что вы, ребята, хотели бы добавить к этой статье, не стесняйтесь оставлять сообщение и не сомневайтесь! Любая обратная связь действительно приветствуется. Не бойтесь поделиться этим! Спасибо!