«Данные — это новая нефть»
Компании, которые понимают своих клиентов и увеличивают рост бизнеса
с помощью данных, — это компания будущего
Зачем миру нужен специалист по данным?
МНОГОДИСЦИПЛИНАРНЫЙ
Нам нужно понять ПРОБЛЕМУ
1. Как думает руководство
2. Как думает клиент
3. Как меняется рынок
Тип анализа
- Описательная аналитика
Понимание исторических данных
Поиск причин прошлых успехов/неудачи - Предиктивная аналитика
Определение будущего результата - Предписывающая аналитика (оптимизация)
Выходит за рамки предсказания будущего результата
Предлагает действия, чтобы извлечь выгоду из предсказания
Цели: получить полезную информацию, принять взвешенное решение, улучшить бизнес-результаты.
Рабочий процесс проекта Data Science
CRoss-Промышленный Sстандартный процесс для данных добыча полезных ископаемых
1. Понимание бизнеса, проблемы, цели
2. Сбор данных. Знакомство с данными
3. Очистка, форматирование, смешивание, образец исследовательского анализа данных
4. Выбор модели, выбор функций, настройка < br /> 5. Объяснение идеи Пояснительная визуализация
6. Оценка качества модели Цель достигнута
CRISP-DM (Бизнес-понимание)
- Определить бизнес-цель
Предыстория, бизнес-цель - Оценить ситуацию
Данные, ресурсы, предположения - Определить цели
В идеале с количественными критериями успеха - Разработайте план проекта
Оцените сроки, бюджет, методологию
Пример:
- Бизнес-гипотеза Компания хотела узнать профиль клиентов, которые исторически занимались допродажей продукта.
- Ожидаемый результат Получите список клиентов с высокой вероятностью дополнительных продаж
- Данные о доступности данных: за все время (2015–2020 гг.)
- Методология Описательный поведенческий анализ профиля клиента для допродажи и не допродажи
CRISP-DM (понимание данных)
- Сбор исходных данных
Отчет о сборе исходных данных - Описание данных Данные
описание отчета - Исследовать данные
Отчет об исследовании данных - Проверьте качество данных
Тщательно документируйте обнаруженные проблемы и проблемы.
Пример:
- Источники данных
Профиль пользователя, Транзакция пользователя - Местоположение данных
Между отделами, По отделам, Внешние данные, Общедоступные данные - Формат данных
Печатная копия, цифровые документы, база данных - Типы данных
Числовой, текст, изображение, аудио, видео - Метод получения
Хранилище данных, Rest API, веб-скрейпинг
CRISP-DM (подготовка данных)
КРИСП-ДМ
1. Моделирование
- Выберите метод моделирования
Допущения, мера точности - Создать дизайн теста
Дизайн теста - Модель сборки
Настройки параметров, описание модели - Оценить модель
Оценка модели (повторить описанное выше)
2. Оценка
- Оценить результаты
Метрика для оценки - Процесс проверки
Оценивайте каждый шаг - Определить следующие шаги
Развертывать или не развертывать?
3. Визуализация
- Знайте аудиторию
Контент будет регулироваться в зависимости от аудитории. - Рассказывание историй
Управление потоком информации - Визуализация — это все о восприятии
• Цвет • Типографика • Выбор правильной диаграммы