Как задавать вопросы, которые может решить наука о данных.

У моих студентов часто возникают проблемы с поиском хороших вопросов по науке о данных.

Обычно это происходит потому, что им еще предстоит выяснить, как вопросы соотносятся с решениями данных. Мне показалось полезным использовать Таксономию Блума с технологиями обработки данных, чтобы нарисовать более четкую картину.

Поначалу инструменты для анализа данных могут показаться очень ограниченными, но мы можем перефразировать большинство реальных вопросов на языке наших инструментов.

Какие вопросы мы можем задать?

Таксономия Блума классифицирует цели обучения, которые педагоги используют, чтобы вести своих учеников. Я также считаю, что это полезно для категоризации идей. В конце концов, если мы даем применимые знания, мы частично выступаем в роли преподавателей.

Таксономия Блума также выдвигает вопросы, которые мы можем задать студентам-тестерам. Эти же вопросы приводят к прекрасным выводам.

Мы разделили процесс обучения на 6 задач со связанными вопросами по каждой цели. Как специалисты по обработке данных, это вопросы, которые мы можем задавать, решать и делиться, чтобы получить представление.

Когнитивные цели в таксономии Блума

Помните: кто, что, где и когда что-то произошло?
Понятно - Вы можете вкратце рассказать о том, что произошло?
Применить - Что произойдет, когда…?
Анализировать - Каковы ключевые части и взаимосвязи…?
Оценить - это лучший подход?
Создать - Можете ли вы предсказать, что произойдет с… в новых условиях?

Доступные инструменты

(практикующие могут пропустить этот обзор)

Есть много инструментов торговли, но вы можете разбить их на несколько областей.

R / Python / SQL / и т. д.

Обработка данных с помощью SQL, R, Python и т. Д. Позволяет нам искать и агрегировать данные.

Эти инструменты отвечают на вопросы, связанные с запоминанием и пониманием. "Когда мой самый крупный пользователь совершил свою последнюю покупку?"

Проверка гипотез

Тот факт, что мы разделяем данные по группам, не означает, что мы нашли связь. Проверка гипотез сообщает нам, применимы ли наши данные к новым ситуациям. "Изображения кошек привлекают больше посетителей, чем изображения собак?"

Анализ сценария

Анализ сценария анализирует множество возможных будущих результатов при различных условиях. Мы создаем множество возможных сценариев, а затем прогнозируем, что произойдет. Что произойдет, если мы поднимем цену на наш продукт?

Оптимизация

Оптимизация - это огромная область, но обычно она задает простые, но трудные для ответа вопросы, касающиеся максимизации и минимизации. Какие маршруты доставки минимизируют стоимость доставки посылок?

Обучение с подкреплением

Обучение с подкреплением наблюдает за данными и оптимизирует результат в режиме реального времени. Когда я должен щелкнуть, чтобы выжить в игре Flappy Bird?

Статистическое моделирование и машинное обучение

Это сложно, потому что это огромные поля. Давайте рассмотрим несколько основных задач:

Классификация и регрессия

Классификация и Регрессия отвечают на такие вопросы, как Есть ли связь между моими данными и одним или несколькими результатами. Классификация ориентирована на прогнозирование групп Это А или Б?. Регрессия фокусируется на количествах: Сколько - или - сколько?

Выбор функций

Выбор характеристик определяет, какие функции в наших данных относятся к определенному результату. Представьте, что мы хотим определить, является ли фрукт яблоком или апельсином. В наших данных мы используем цвет и сладость как характеристики фруктов. Алгоритм выбора характеристик сузил бы цвет как полезный дискриминатор, поскольку яблоки и апельсины сладкие.

Уменьшение размерности

Снижение размерности берет данные и сокращает их до основных компонентов. Это похоже на сжатие изображений, когда мы показываем одно и то же изображение с меньшим количеством информации. Представьте, что у нас есть данные о продажах одноразовых вилок, ножей и тарелок. Снижение размерности может показать один столбец продаж одноразовой посуды. Мы примерно спрашиваем: Каковы основные закономерности в моих данных о продажах?

Кластеризация

Кластеризация пытается собрать данные и автоматически сгруппировать похожие наблюдения. Мы можем организовать наши данные как набор нескольких типов наблюдений. Мы спрашиваем: Есть ли у меня разные типы клиентов или все они совершенно уникальны?

Обнаружение аномалий

Обнаружение аномалии отвечает, принадлежит ли наблюдение к набору данных. Мы примерно спрашиваем: Это показание температуры нормально или странно? Важно отметить, что мы часто можем упростить этот вопрос. Задача классификации, которая спрашивает: Странно это или нет? похоже на обнаружение аномалии.

Как все это сочетается?

Я перечислил общие вопросы по науке о данных ниже, организованные Bloom’s Taxonomy. Каждый вопрос перефразирован для работы с общей техникой науки о данных. Вопросы отсортированы от самого простого к самому сложному.

Помните - кто, что, где и когда что-то произошло?

Мы отвечаем на запоминающиеся вопросы по сбору данных и манипулированию ими с помощью SQL, R, Python и т. Д.

Какой браузер использует конкретный пользователь для просмотра этого сайта?

В наших данных мы находим пользователя, использующего SQL, R или Python, и какой браузер он использовал.

Как этот конкретный пользователь нашел этот сайт?

Мы находим пользователя в наших данных с помощью SQL, R или Python и записанного источника трафика.

Понятно - Вы можете вкратце рассказать о том, что произошло?

Мы отвечаем на понятные вопросы путем агрегирования или обобщения данных.

Какие браузеры обычно используют мои пользователи?

Опять же, используя SQL, R или Python, мы можем подсчитать количество пользователей по браузеру в наших данных.

Применить - Что произойдет, когда…?

Мы отвечаем на вопросы приложений, требуя обобщения наших результатов. Проверка гипотез, перекрестная проверка и экспериментальные подходы - это методы, обеспечивающие обобщение.

Есть ли связь между временем, проведенным на солнце, и высотой растения?

Это проблема регрессии, Y = f (X). Y = высота растения. F представляет любую модель, которая фиксирует отношения. X = количество времени, которое растение провело на солнечном свете.

Выйдет ли из строя этот кондиционер в ближайшие 3 года: да или нет?

Это задача классификации, Y = f (X). Y = {неудача, не ошибка}. F представляет любую модель, которая фиксирует отношения. X - это данные, которые записывают историю отказов кондиционера и связанных характеристик.

Какое животное изображено на данном изображении?

Это тоже проблема классификации, Y = f (x), иногда называемая многоклассовой классификацией. Y = {собака, кошка, лошадь, другой}. F представляет любую модель, которая фиксирует отношения. Данные X будут изображениями, закодированными в табличную форму.

Какова вероятность того, что купит этот покупатель?

Это задача классификации, Y = f (X), Y = {покупать, а не покупать}. X - это данные, относящиеся к покупательским привычкам. Многие алгоритмы могут дать вам вероятность попадания в определенный класс.

Является ли эта банковская транзакция мошеннической?

Это проблема классификации, Y = f (x). Д = {мошеннический, а не мошеннический}. X - данные банковской транзакции. Обнаружение аномалий также может решить эту проблему. Обнаружение аномалий может работать, даже если у вас нет прошлых данных, свидетельствующих о мошенничестве, но это более сложная проблема.

Анализировать - Каковы ключевые части и взаимосвязи…?

Чтобы ответить на вопросы анализа, вы разбиваете данные на части и ищите закономерности. Выбор функций, уменьшение размерности и кластеризация являются ключевыми инструментами.

Какие факторы лучше всего предсказывают спрос на электроэнергию?

Это проблема регрессии с выбором функции, Y = f (X). Y = количество потребляемой электроэнергии. F представляет любую модель, которая отражает взаимосвязь между вашими данными и потребляемой электроэнергией. X, вероятно, имеет характеристики цена, температуру, сезон, регион и многие другие особенности. Чтобы найти наиболее важные факторы, мы используем выбор функций, чтобы удалить факторы, не предсказывающие спрос на электроэнергию.

В чем основные различия между яблоками и апельсинами?

Это проблема классификации с выбором характеристик, Y = f (X). Y = {яблоки, апельсины}. F представляет любую модель, которая фиксирует отношения в ваших данных. X имеет множество характеристик, таких как рост, вес, цвет, вкус и прочность. Выбор характеристик находит характеристики, которые лучше всего различают яблоки и апельсины.

Какие группы датчиков в моей системе отопления, вентиляции и кондиционирования воздуха, как правило, отличаются друг от друга (и относительно друг друга)?

Это проблема кластеризации, потому что мы группируем похожие датчики друг с другом. Мы организуем данные с помощью датчиков в виде строк, а время чтения - в виде столбцов.

Какая комбинация датчиков в моей системе HVAC лучше всего отображает общее состояние системы?

Это проблема уменьшения размерности. Мы берем огромное количество данных и превращаем их в несколько ключевых показателей эффективности. В этом случае мы организуем данные с разных датчиков в разные столбцы.

Каким зрителям нравятся одни и те же фильмы?

Это странно, потому что мы стараемся группировать похожих пользователей и похожие фильмы. Это типично для системы рекомендаций. Мы также можем написать более простое приложение, например Нравится ли этому пользователю эта группа фильмов? или даже проще: "Понравится ли этот фильм пользователю?"

Что общего у успешных руководителей?

Сначала это похоже на групповой вопрос. Когда вы читаете между строк, это возвращается к ключевым различиям. Все успешные генеральные директора едят, как и все неудачливые генеральные директора. Нас гораздо больше интересует, что предсказывает успех.

Оценить - это лучший подход?

Чтобы ответить на вопросы оценки, вам необходимо экстраполировать свои данные на сложные гипотетические случаи.

Можно ли сэкономить, установив более выгодные цены на разные продукты?

Это сводится к сценарному анализу. Мы придумываем несколько схем ценообразования, а затем прогнозируем их эффекты с помощью моделей. Скорее всего, это потребует классификации, регрессии и критического мышления.

Создать - Можете ли вы предсказать, что случится с… в новых условиях?

Вопросы создания просят вас создать новые оптимальные решения.

По какому маршруту должен ехать мой грузовик?

Это хорошо известная проблема оптимизации. Главный критерий - минимизировать затраты на топливо при своевременной доставке.

Где мы должны установить наше новое местоположение?

Здесь нам нужно оптимизировать по определенным критериям. Самый простой способ - максимизировать прибыль, но на самом деле следует учитывать и большее. Чтобы написать оптимизацию, нам нужно уметь оценивать локации. Это возвращает нас к этапам применения, анализа и оценки.

Где мне разместить это объявление на веб-странице, чтобы зритель с большей вероятностью нажал на него?

Вы можете написать это как оптимизацию, но есть варианты получше. Переместить рекламу и посмотреть, насколько она эффективна, недорого. Это означает, что мы можем экспериментировать, а не принимать решения заранее. Попробуйте разместить рекламу и проверьте ее эффективность. Вы даже можете автоматизировать этот процесс с помощью A / B-тестирования или обучения с подкреплением.

Должна ли моя автоматизированная система охлаждения и нагрева регулировать температуру выше, ниже или оставить ее на прежнем уровне?

Это хорошая область для обучения с подкреплением. Ваша система охлаждения настраивается на вводимые данные, такие как цена на электроэнергию, время суток и ваши заявленные предпочтения.

Когда у нас есть молоток, все становится гвоздем

Сначала мы должны задать вопросы. Наши данные и инструменты легко запутываются. Мы забываем, что есть более широкие вопросы, которыми мы можем заняться.

Вопросы с данными следуют континууму от простого к сложному. Задавая множество мелких вопросов, вы добьетесь прогресса и сделаете важные выводы, которых вы даже не ожидали.

Если вы найдете это полезным, порекомендуйте и поделитесь, нажмите ниже, чтобы это увидели другие.

Как задавать вопросы, которые может решить наука о данных.

Какие вопросы мы можем задать?

Когнитивные цели в таксономии Блума

Доступные инструменты

Как все это сочетается?

Вопросы по теме