«Данные — это новая нефть»

Компании, которые понимают своих клиентов и увеличивают рост бизнеса
с помощью данных, — это компания будущего

Зачем миру нужен специалист по данным?

МНОГОДИСЦИПЛИНАРНЫЙ

Нам нужно понять ПРОБЛЕМУ

1. Как думает руководство

2. Как думает клиент

3. Как меняется рынок

Тип анализа

  1. Описательная аналитика
    Понимание исторических данных
    Поиск причин прошлых успехов/неудачи
  2. Предиктивная аналитика
    Определение будущего результата
  3. Предписывающая аналитика (оптимизация)
    Выходит за рамки предсказания будущего результата
    Предлагает действия, чтобы извлечь выгоду из предсказания

Цели: получить полезную информацию, принять взвешенное решение, улучшить бизнес-результаты.

Рабочий процесс проекта Data Science

CRoss-Промышленный Sстандартный процесс для данных добыча полезных ископаемых

1. Понимание бизнеса, проблемы, цели
2. Сбор данных. Знакомство с данными
3. Очистка, форматирование, смешивание, образец исследовательского анализа данных
4. Выбор модели, выбор функций, настройка < br /> 5. Объяснение идеи Пояснительная визуализация
6. Оценка качества модели Цель достигнута

CRISP-DM (Бизнес-понимание)

  1. Определить бизнес-цель
    Предыстория, бизнес-цель
  2. Оценить ситуацию
    Данные, ресурсы, предположения
  3. Определить цели
    В идеале с количественными критериями успеха
  4. Разработайте план проекта
    Оцените сроки, бюджет, методологию

Пример:

  • Бизнес-гипотеза Компания хотела узнать профиль клиентов, которые исторически занимались допродажей продукта.
  • Ожидаемый результат Получите список клиентов с высокой вероятностью дополнительных продаж
  • Данные о доступности данных: за все время (2015–2020 гг.)
  • Методология Описательный поведенческий анализ профиля клиента для допродажи и не допродажи

CRISP-DM (понимание данных)

  1. Сбор исходных данных
    Отчет о сборе исходных данных
  2. Описание данных Данные
    описание отчета
  3. Исследовать данные
    Отчет об исследовании данных
  4. Проверьте качество данных
    Тщательно документируйте обнаруженные проблемы и проблемы.

Пример:

  • Источники данных
    Профиль пользователя, Транзакция пользователя
  • Местоположение данных
    Между отделами, По отделам, Внешние данные, Общедоступные данные
  • Формат данных
    Печатная копия, цифровые документы, база данных
  • Типы данных
    Числовой, текст, изображение, аудио, видео
  • Метод получения
    Хранилище данных, Rest API, веб-скрейпинг

CRISP-DM (подготовка данных)

КРИСП-ДМ

1. Моделирование

  • Выберите метод моделирования
    Допущения, мера точности
  • Создать дизайн теста
    Дизайн теста
  • Модель сборки
    Настройки параметров, описание модели
  • Оценить модель
    Оценка модели (повторить описанное выше)

2. Оценка

  • Оценить результаты
    Метрика для оценки
  • Процесс проверки
    Оценивайте каждый шаг
  • Определить следующие шаги
    Развертывать или не развертывать?

3. Визуализация

  • Знайте аудиторию
    Контент будет регулироваться в зависимости от аудитории.
  • Рассказывание историй
    Управление потоком информации
  • Визуализация — это все о восприятии
    • Цвет • Типографика • Выбор правильной диаграммы