3-недельное руководство для начинающих по Ace Data Science Interview: #Day 12

Вопросы для интервью на основе древовидных алгоритмов

О сериале

Область науки о данных — это захватывающий карьерный выбор, и мы видим много найма на свежие, нестандартные и опытные должности. Одно дело знать концепции, и совсем другое — пройти строгие собеседования на должности в области науки о данных. Если кандидат знаком с различными вопросами и процессом собеседования, он находится на правильном пути к отличной карьере в развивающейся области науки о данных.

Это трехнедельное руководство для начинающих по Ace Data Science Interview будет полезным для тех, кто готовится к собеседованию по Data Science. Каждый день в течение следующих 21 дня мы будем говорить о различных областях науки о данных и подробно их освещать. Так что устройтесь поудобнее и начните читать статью, чтобы лучше понять область науки о данных и подготовиться к интервью.

Алгоритмы на основе дерева — одни из наиболее часто используемых алгоритмов машинного обучения, которые можно использовать для решения задач как классификации, так и регрессии. Вот более легкий вариант, показывающий, насколько древовидные алгоритмы и связанные с ними алгоритмы (случайный лес и т. д.) достаточно гибки для использования.

В сообщении также представлен набор практических вопросов, которые помогут вам проверить свои знания основных принципов/концепций дерева решений. Это может оказаться очень полезным, если вы планируете пройти интервью на должность инженера по машинному обучению, стажера, новичка или специалиста по данным. .

Из всех древовидных алгоритмов дерево решений является одним из самых основных древовидных алгоритмов, поэтому сначала давайте немного почувствуем интуицию в отношении этого алгоритма, а затем углубимся в другие.

Ключевые определения — деревья решений

Разделяй и властвуй: это стратегия, используемая для разделения данных на два или более сегмента данных на основе некоторых решений. ИТ также называется рекурсивным секционированием. Критерий разделения, используемый в алгоритме C5.0, — это энтропия или прирост информации.
Энтропия: словарное значение энтропии, относящейся к данным, — это отсутствие порядка или предсказуемости данных; Другими словами, данные с высоким беспорядком можно назвать данными с высокой энтропией, а однородные (или чистые) данные можно назвать данными с очень низкой энтропией. Таким образом, энтропию можно определить как меру нечистоты данных. Чем выше энтропия, тем более нечистыми являются данные.
Чистый сегмент данных или дочерний узел: как упоминалось выше, значение энтропии определяет чистоту сегмента данных. Значение энтропии, близкое к нулю, говорит о том, что данные чистые. По сути, это означает, что данные принадлежат одному или почти одному уровню класса (классу с меткой). Значение ближе к 1 представляет максимальный беспорядок или максимальное расщепление. Это подразумевает 50–50 или равные разбиения в сегменте данных.

Как рассчитать значение энтропии сегмента данных: значение энтропии сегмента данных можно рассчитать с помощью суммирования по следующей формуле для сегмента данных с n классами, где p представляет долю значения ((или вероятность появление класса), принадлежащих определенному классу:

-p * log2 (p), (p=вероятность)

Таким образом, для сегмента данных, имеющего данные, принадлежащие двум классам A (скажем, начало) и B (скажем, хвост), где доля значения класса A (или вероятность p(A)) равна 0,25, а для класса B (p(B )) равно 0,75, энтропию можно рассчитать следующим образом:

-(0.25)*log2 (0.25) - (0.65)*log2 (0.65)

= - (-0.5) - (-0.403)

=0.903

Для сегмента данных с разделением 50–50 здесь указано значение энтропии (ожидаемое значение 1).

-(0.5)*log2 (0.5) - (0.5)*log2 (0.5)

= - (0.5)*(-1) - (0.5)*(-1)

= 0.5 + 0.5

= 1

Для сегмента данных с разбиением на 90–10% (высокооднородные/чистые данные) значение энтропии равно (ожидаемое значение ближе к 0):

-(0.1)*log2 (0.1) - (0.9)*log2 (0.9)

= - (0.1)*(-3.3219) - (0.9)*(-0.1520)

= 0.3323 + 0.1368

= 0.4691

Для полностью чистого сегмента данных значение энтропии равно (ожидаемое значение равно 0):

-(1)*log2 (1) - (0)*log2 (0)

= - (1)*(0) - (0)*(infinity)

= 0

Прирост информации. Прирост информации — это разница между энтропией сегмента данных до и после разделения. Высокая разница представляет собой высокий прирост информации. Чем выше разница, тем ниже энтропия всех сегментов данных, полученных в результате разделения. Таким образом, чем выше разница, тем выше прирост информации и лучше функция, используемая для разделения. Математически прирост информации I можно представить следующим образом:

InfoGain = E(S1) - E(S2)

E(S1) представляет собой энтропию данных, принадлежащих узлу до разделения
E(S2) представляет собой взвешенную сумму энтропии дочерних узлов; Веса равны доле экземпляров данных, попадающих в конкретный дочерний узел.

Время вопросов:

Вопрос 1.Цель выбора признаков при построении дерева решений — найти признаки или атрибуты (узлы решений), которые приводят к разделению дочерних узлов с энтропией ________.

(минимум

(б) Максимум

Ответ (а)

Вопрос 2: Прирост информациизначение ______ означает, что выборка данных является чистой или однородной.

(a) 1

(b) 0

Ответ (а) Из-за прироста информации равноInfoGain = E(S1) - E(S2)

Это означает, что энтропия дочерних узлов равна 0, поэтому мы получили полную однородную выборку.

Вопрос 3. Как определить скорость обучения для обучения алгоритмов дерева принятия решений.

Алгоритм дерева решений основан на энтропии и получении информации, поэтому в дереве решений нет параметра скорости обучения. Вам требуется параметр скорости обучения, только если вы используете градиентный спуск.

Вопрос 4.Алгоритм на основе дерева. Чем случайный лес отличается от алгоритма повышения градиента (GBM)?

Ответ. Фундаментальное отличие состоит в том, что в случайном лесу для прогнозирования используются методы мешков. GBM использует методы повышения для прогнозирования.

В методе бэггинга набор данных делится на n выборок с использованием рандомизированной выборки. Затем с помощью единого алгоритма обучения строится модель на всех выборках. Позже полученные прогнозы объединяются с помощью голосования или усреднения. Укладка производится параллельно. При повышении после первого раунда прогнозов алгоритм взвешивает ошибочно классифицированные прогнозы выше, чтобы их можно было исправить в следующем раунде. Этот последовательный процесс присвоения более высоких весов ошибочно классифицированным предсказаниям продолжается до тех пор, пока не будет достигнут критерий остановки.

Случайный лес повышает точность модели за счет уменьшения дисперсии (в основном). Выращенные деревья некоррелированы, чтобы максимизировать уменьшение дисперсии. С другой стороны, GBM повышает точность, уменьшая как систематическую ошибку, так и дисперсию в модели.

Вопрос 5.Предварительная обрезка дерева решений может привести к ______.

(а) Переоснащение

(б) Недооснащение

Ответ (b) Недостаточное оснащение

Вопрос: 6Верно-неверно: бэггинг подходит для моделей с высокой дисперсией и низким смещением?

А) ВЕРНО
Б) НЕВЕРНО

Решение: А

Пакетирование подходит для моделей с высокой дисперсией и низким смещением или, можно сказать, для сложных моделей.

Вопрос:7 Что такое сокращение в деревьях решений и как это делается?

Обрезка — это метод машинного обучения, который уменьшает размер деревьев решений. Это снижает сложность конечного классификатора и, следовательно, повышает точность прогнозирования за счет уменьшения переобучения.

Обрезка может происходить в:

Мода сверху вниз. Он будет проходить по узлам и обрезать поддеревья, начиная с корня.
Мода снизу вверх. Он начнется с листовых узлов

Существует популярный алгоритм сокращения, называемый сокращением с уменьшенным числом ошибок, в котором:

Начиная с листьев, каждый узел заменяется его самым популярным классом.
Если на точность прогноза не влияет, изменение сохраняется.
Преимущество в простоте и скорости

Вопрос 8.Какой из следующих алгоритмов не использует скорость обучения в качестве одного из своих гиперпараметров?

(а) Повышение градиента

(б) Дополнительные деревья

(г) Случайный лес

А) 1 и 3
Б) 1 и 4
В) 2 и 3
Г) 2 и 4

Решение: D

Random Forest и Extra Tree не имеют скорости обучения в качестве гиперпараметра.

Вопрос 9. Что такое ансамблевое обучение?

Для решения конкретной вычислительной программы стратегически создаются и комбинируются несколько моделей, таких как классификаторы или эксперты. Этот процесс известен как ансамблевое обучение. Также известен как «Мудрость толпы».

Спасибо за внимание, и я с нетерпением жду ваших вопросов :)Приятного просмотра!

Резюме

В этом блоге я представил вам основные концепции машинного обучения, и я надеюсь, что этот блог был вам полезен и достаточно мотивировал вас, чтобы заинтересоваться этой темой.

Если этот блог каким-то образом вам помог, нажмите Подпишитесь и Аплодируйте👏, потому что ваша поддержка стимулирует вдохновение и помогает создавать еще больше таких крутых вещей. Как всегда, я приветствую отзывы и конструктивную критику, рад услышать от вас.

Проверьте, что находится в День 1, День 2, День 3, День 4, День 5, День 6, День 7, День 8, День 9, День 10, День 11.

3-недельное руководство для начинающих по Ace Data Science Interview: #Day 12

Вопросы для интервью на основе древовидных алгоритмов

Ключевые определения — деревья решений

Время вопросов:

Резюме

Вопросы по теме